Mô hình · QbitAI

Đột phá mới: Đội ngũ của Yann LeCun giúp mô hình thế giới học tập liên tục

Đội ngũ nghiên cứu của Yann LeCun vừa đạt bước tiến quan trọng, cho phép các mô hình thế giới (world models) khả năng tự học hỏi và cập nhật kiến thức liên tục thay vì chỉ huấn luyện một lần.

Điểm 92Thời gian 13:52 · 05/07/2026

Lý do đề xuất

Đây là bước tiến quan trọng trong kiến trúc AI của Meta, giải quyết bài toán cốt lõi về khả năng thích nghi của mô hình thế giới, rất đáng chú ý với giới chuyên môn.

Tóm tắt

Bản dịch AI

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

05-07-2026 14:52:17 Nguồn: QbitAI

Hướng tới mô hình thế giới học tập liên tục

henry đưa tin từ Aofei Temple

QbitAI | Tài khoản chính thức QbitAI

Mô hình thế giới giờ đây cũng có thể học tập liên tục!

Vừa mới đây, Đại học New York phối hợp cùng startup AMI của LeCun đã mang đến thành tựu mới nhất cho dòng JEPA—

AdaJEPA.

Khác với các mô hình thế giới trước đây thường đóng băng tham số sau khi kết thúc quá trình tiền huấn luyện, AdaJEPA có khả năng điều chỉnh tham số của bộ mã hóa (encoder) và bộ dự đoán (predictor) trong thời gian thực dựa trên cơ chế Thích ứng khi kiểm thử (Test-Time Adaptation, TTA) trong quá trình tương tác với môi trường, từ đó hiện thực hóa việc học tập liên tục.

Cụ thể, thông qua vòng lặp khép kín gồm: lập kế hoạch, thực thi, quan sát, cập nhật và tái lập kế hoạch, AdaJEPA chỉ thực hiện đoạn hành động đầu tiên được tính toán bởi MPC (Model Predictive Control) trong mỗi lần tương tác, sau đó sử dụng trạng thái khung hình tiếp theo quan sát được từ thực tế làm tín hiệu tự giám sát để cập nhật mô hình thế giới.

Nhờ vậy, trong vòng lập kế hoạch tiếp theo, hệ thống không còn sử dụng mô hình đã đóng băng như lúc mới triển khai, mà là mô hình đã được "hiệu chuẩn" bởi chính môi trường hiện tại.

Tư duy này khá giống với Dyna trong học tăng cường (reinforcement learning) cổ điển:

Mô hình không kết thúc sau một lần huấn luyện, mà liên tục tự điều chỉnh hiểu biết về thế giới trong quá trình tương tác thực tế.

Kết quả thực nghiệm cũng cho thấy, dù là trong môi trường phân phối nội bộ (in-distribution) hay đối mặt với các loại sai lệch phân phối ngoài (out-of-distribution), tỷ lệ thành công trong lập kế hoạch của AdaJEPA đều vượt trội rõ rệt so với mô hình thế giới cố định.

Điều này được thực hiện như thế nào?

Lập kế hoạch, thực thi, quan sát, cập nhật, tái lập kế hoạch

Từ trước đến nay, các mô hình thế giới không gian ẩn (latent space) dựa trên lộ trình JEPA đều có một tiền đề mặc định: mô hình sẽ đóng băng tham số sau khi huấn luyện xong.

Toàn bộ quy trình diễn ra đại khái như sau:

Mô hình trước tiên học cách nén hình ảnh độ phân giải cao vào không gian ẩn (latent space) dựa trên các quỹ đạo ngoại tuyến (offline trajectories), sau đó dự đoán tương lai trong không gian ẩn này.

Đến giai đoạn kiểm thử, MPC (Model Predictive Control - Điều khiển dự báo mô hình) sẽ gọi mô hình thế giới đã đóng băng này, "tưởng tượng" về tương lai bằng cách cuộn tới trong không gian ẩn, tối ưu hóa một chuỗi hành động, rồi lấy bước hành động đầu tiên để thực thi trong môi trường thực tế.

(Lưu ý: Tư tưởng cốt lõi của MPC là mỗi lần chỉ dự đoán một đoạn ngắn, tính toán ra một chuỗi hành động, nhưng chỉ thực hiện bước đầu tiên. Sau khi nhận phản hồi từ môi trường thực tế, hệ thống sẽ dự đoán lại và lập kế hoạch lại)

Tuy nhiên, vấn đề nằm ở chỗ, khi môi trường thay đổi, mô hình thế giới đã đóng băng dễ bị sai lệch.

Khi hệ thống đối mặt với sai lệch phân phối khi kiểm thử (Test-time Distribution Shift), các hành động trông có vẻ đạt mục tiêu trong không gian ẩn có thể trở nên hoàn toàn sai lệch khi áp dụng vào môi trường thực tế.

Rắc rối hơn nữa là MPC vốn dựa vào lập kế hoạch cuộn theo miền thời gian ngắn, sai số đơn bước sẽ bị khuếch đại sau vài bước cuộn tiếp theo.

Để giải quyết vấn đề này, bài báo đề xuất khung AdaJEPA.

Nhận định cốt lõi của nó là: Mô hình thế giới không nên bị cố định sau khi huấn luyện xong. Nó nên giống như một tác nhân (agent) thực thụ trong quá trình triển khai, vừa hành động vừa tự hiệu chuẩn bản thân bằng những kinh nghiệm mới.

Cụ thể, vòng lặp của AdaJEPA có thể chia thành bốn bước:

Nhờ đó, vòng lặp của AdaJEPA không còn chỉ là quy trình MPC truyền thống: lập kế hoạch, thực thi, tái lập kế hoạch.

Mà đã trở thành: lập kế hoạch, thực thi, quan sát, cập nhật, tái lập kế hoạch.

Do đó, mô hình thế giới không còn chỉ là một "bộ tưởng tượng" được gọi thụ động, mà đã trở thành một mô-đun tự hiệu chuẩn liên tục trong quá trình triển khai.

Chi tiết triển khai

Về mặt triển khai, nền tảng của AdaJEPA vẫn là JEPA (Joint-Embedding Predictive Architectures) - Kiến trúc dự đoán nhúng chung.

Khác với mô hình thế giới dự đoán cấp độ pixel truyền thống, JEPA không dự đoán trực tiếp hình ảnh tương lai mà nén hình ảnh vào một không gian ẩn gọn gàng hơn, chỉ dự đoán trạng thái tương lai trong không gian ẩn (latent space).

Cụ thể, toàn bộ mô hình bao gồm ba thành phần cốt lõi:

Việc cập nhật trực tuyến của AdaJEPA diễn ra ngay trong không gian ẩn này.

Sau mỗi lần thực hiện hành động, hệ thống sẽ lưu trữ các chuyển đổi trạng thái thực tế vào bộ đệm trực tuyến (online buffer). Bộ đệm này không tăng trưởng vô hạn, trong bài báo mặc định chỉ lưu giữ N chuyển đổi gần nhất.

Ý chính từ bài gốc

AdaJEPA cho phép mô hình thế giới học tập liên tục thông qua cơ chế thích ứng thời gian thực (TTA).
Mô hình tự hiệu chỉnh bằng cách sử dụng dữ liệu quan sát thực tế làm tín hiệu tự giám sát sau mỗi bước thực thi.
Cải thiện đáng kể tỷ lệ thành công khi đối mặt với sự thay đổi môi trường so với các mô hình cố định.
Cơ chế cập nhật nhẹ nhàng, chỉ thay đổi một phần nhỏ tham số, giúp duy trì độ trễ cực thấp khi triển khai.
Dựa trên kiến trúc JEPA, tập trung dự đoán trạng thái trong không gian ẩn thay vì dự đoán pixel trực tiếp.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ 量子位. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.