Nghiên cứu · X：Berry Xia (@berryxia)

Nghiên cứu Orca: Thay thế dự đoán token/khung hình/hành động bằng 'dự đoán trạng thái tiếp theo'

Điểm 58Thời gian 10:34

Tóm tắt

Bài báo khoa học về Orca đề xuất một mô hình mới thay thế việc dự đoán token, khung hình hoặc hành động bằng cách 'dự đoán trạng thái tiếp theo'. Phương pháp này học các biểu diễn tiềm ẩn của thế giới từ 125.000 giờ video, cho phép hệ thống hiểu các quy luật vật lý và thực hiện hành động mà không cần nhãn dữ liệu hành động cụ thể.

Nội dung dịch chi tiết

Nghiên cứu về Orca giới thiệu một mô hình mới thay thế các phương pháp truyền thống như dự đoán token (GPT), dự đoán khung hình (video) hay dự đoán hành động (robot) bằng cách tập trung vào việc 'dự đoán trạng thái tiếp theo'.

Hệ thống này học các biểu diễn tiềm ẩn thống nhất của thế giới thông qua khối lượng dữ liệu khổng lồ, bao gồm 125.000 giờ video và 160 triệu sự kiện được chú thích. Quá trình học tập được chia thành hai phần: học vô thức (trạng thái vật lý liên tục trong video) và học có ý thức (mô tả sự kiện/VQA) để nắm bắt sự chuyển đổi trạng thái.

Sau khi đóng băng phần lõi (backbone), các biểu diễn tiềm ẩn này có thể được sử dụng để đọc hiểu văn bản, hình ảnh và điều khiển robot cùng lúc.

Đáng chú ý, quá trình tiền huấn luyện không yêu cầu nhãn hành động nhưng vẫn có khả năng tạo ra các hành động cho robot. Điều này chứng minh rằng việc hiểu sâu sắc thế giới vật lý đã bao hàm sẵn khả năng thực hiện hành động.

Ý chính từ bài gốc

Đề xuất mô hình 'dự đoán trạng thái tiếp theo' thay thế cho dự đoán token, khung hình hoặc hành động.
Học biểu diễn tiềm ẩn từ 125.000 giờ video và 160 triệu sự kiện chú thích.
Kết hợp học vô thức (trạng thái vật lý) và học có ý thức (mô tả sự kiện) để hiểu sự chuyển đổi trạng thái.
Biểu diễn tiềm ẩn sau khi đóng băng có thể ứng dụng đồng thời cho văn bản, hình ảnh và robot.
Khả năng thực hiện hành động robot được hình thành tự nhiên từ việc hiểu thế giới vật lý mà không cần nhãn hành động.

Mở bài gốc