Nghiên cứu · QbitAI
Fei-Fei Li công bố nghiên cứu mới về AI hiện thân: Thay vì Sim2Real tốn kém, hãy dùng Real2Sim để tối ưu dữ liệu
Nghiên cứu mới cho phép tạo ra vô số kịch bản huấn luyện từ một đoạn video duy nhất, giải quyết bài toán thiếu hụt dữ liệu cho robot.
Lý do đề xuất
Đây là nghiên cứu đột phá từ chuyên gia hàng đầu Fei-Fei Li, giải quyết trực tiếp rào cản chi phí trong huấn luyện robot, có giá trị chuyên môn rất cao.
Tóm tắt
Nghiên cứu mới cho phép tạo ra vô số kịch bản huấn luyện từ một đoạn video duy nhất, giải quyết bài toán thiếu hụt dữ liệu cho robot.
Bản dịch AI
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
2026-07-05 14:59:11 Nguồn: QbitAI
Một đoạn video, tạo ra vô hạn kịch bản huấn luyện
Henry đưa tin từ Aofei Temple
QbitAI | Tài khoản chính thức QbitAI
Vẫn còn bàn về Sim2Real ư? Giờ đây trong giới robot, Real2Sim mới là xu hướng hot hơn!
Gần đây, NVIDIA GEAR phối hợp cùng đội ngũ của Lý Phi Phi (Li Fei-Fei), Viện Công nghệ Georgia và các tổ chức khác đã cùng công bố hệ thống Real2Sim hoàn toàn mới——
SimFoundry.

SimFoundry chỉ cần một đoạn video từ thế giới thực là có thể tự động tạo ra một môi trường mô phỏng robot có khả năng tương tác, huấn luyện và đánh giá.
Và không chỉ đơn thuần là tái tạo cảnh 3D.
SimFoundry còn có thể tự động thay thế vật thể, điều chỉnh bố cục cảnh, thậm chí tạo ra các nhiệm vụ thao tác mới trong khi vẫn giữ nguyên chức năng và khả năng tương tác (Affordance) của vật thể. Nói cách khác, một đoạn video thực tế không còn chỉ tạo ra một kịch bản mô phỏng duy nhất, mà có thể tự động mở rộng ra không gian tạo dữ liệu gần như vô hạn.
Nhờ đó, SimFoundry không chỉ có thể huấn luyện robot trong môi trường mô phỏng mà còn có thể dự đoán khá tin cậy hiệu suất thực tế của các chiến lược robot khác nhau ngoài đời thực.

Xa hơn nữa, các chiến lược được huấn luyện trên dữ liệu do SimFoundry tạo ra còn có thể triển khai zero-shot lên robot thực tế, hoàn thành việc chuyển đổi sang thế giới thực trong nhiều nhiệm vụ như thao tác đa bước, phối hợp hai tay, thao tác với vật thể có khớp nối, v.v.
Điều này được thực hiện như thế nào?
Một đoạn video, tạo ra vô hạn kịch bản huấn luyện
Đóng góp cốt lõi của SimFoundry nằm ở việc thông suốt toàn bộ vòng lặp Real-to-Sim từ tạo cảnh, tạo dữ liệu, đánh giá chiến lược cho đến huấn luyện chiến lược.

Từ trước đến nay, việc huấn luyện chiến lược robot luôn phụ thuộc rất nhiều vào dữ liệu thế giới thực, trong khi việc thu thập dữ liệu từ robot thực tế không chỉ đắt đỏ, tốn thời gian mà còn khó mở rộng quy mô.
Ngay cả khi mô hình đã được huấn luyện xong, việc kiểm thử trên máy thật cũng bị hạn chế bởi các yếu tố như kịch bản hạn hẹp và chi phí kiểm thử cao.
Chính vì vậy, các nhà nghiên cứu bắt đầu coi mô phỏng (Simulation) là một giải pháp thay thế có khả năng mở rộng để huấn luyện và đánh giá chiến lược robot.
Nhờ công nghệ tạo dữ liệu tự động, có thể tổng hợp một lượng lớn dữ liệu huấn luyện đa dạng, chất lượng cao với chi phí nhân lực cực thấp, từ đó liên tục nâng cao khả năng tổng quát hóa của robot trong thế giới thực.

Đồng thời, ngày càng có nhiều nghiên cứu phát hiện ra rằng, chỉ cần môi trường mô phỏng đủ chân thực, kết quả đánh giá của nó thường có sự nhất quán cao với hiệu suất của robot trong thế giới thực.
Tuy nhiên, một vấn đề mới lại nảy sinh.
Mặc dù mô phỏng có thể cung cấp dữ liệu gần như vô hạn, nhưng việc xây dựng một môi trường mô phỏng có đầy đủ các thuộc tính hình học, vật lý và khả năng tương tác thực tế vẫn đòi hỏi rất nhiều công sức mô hình hóa thủ công.
Do đó, trong hai năm gần đây, Real-to-Sim dần trở thành một hướng đi hot trong lĩnh vực trí tuệ hiện thân (Embodied AI).
Nói một cách đơn giản, Real-to-Sim hy vọng tận dụng mô hình tái tạo 3D và mô hình tạo sinh để nhanh chóng chuyển đổi thế giới thực thành môi trường sẵn sàng cho mô phỏng (Sim-ready) hỗ trợ tương tác vật lý, từ đó giảm đáng kể chi phí xây dựng kịch bản mô phỏng thủ công.

Nhưng vấn đề nằm ở chỗ, các giải pháp Real-to-Sim hiện có thường chỉ giải quyết được một khâu: có cái giỏi tái tạo cảnh 3D nhưng không thể tạo dữ liệu huấn luyện;
Có cái có thể đánh giá chiến lược nhưng lại phụ thuộc vào cấu hình thủ công nhiều, cũng khó mở rộng ra các kịch bản và nhiệm vụ phong phú.
Dựa trên cơ sở đó, tư duy của SimFoundry là kết nối việc xây dựng cảnh, tạo dữ liệu, đánh giá chiến lược và huấn luyện chiến lược thành một quy trình hoàn chỉnh.
Toàn bộ hệ thống chủ yếu hoàn thành ba việc:
(Lưu ý: Bản sao kỹ thuật số (Digital Twin) là sự sao chép chính xác cảnh thực; còn "anh em họ kỹ thuật số" (Digital Cousins) thì giữ nguyên chức năng và cách tương tác của cảnh, nhưng sẽ thực hiện các thay đổi hợp lý về vật thể, bố cục hoặc nhiệm vụ.)
Để đạt được mục tiêu này, SimFoundry đã thiết kế một quy trình (Pipeline) gồm ba giai đoạn.
Quy trình ba giai đoạn
Quy trình tổng thể của SimFoundry không phức tạp, có thể tóm tắt thành ba giai đoạn:
Extraction (Trích xuất) → Generation (Tạo) → Augmentation (Tăng cường).
Nói ngắn gọn là: trước tiên hiểu thế giới thực, sau đó xây dựng thế giới kỹ thuật số, cuối cùng là tạo hàng loạt các thế giới kỹ thuật số mới.
Ý chính từ bài gốc
- SimFoundry chuyển đổi video thực tế thành môi trường mô phỏng tương tác tự động.
- Tạo ra dữ liệu huấn luyện vô hạn thông qua các biến thể vật thể, cảnh và nhiệm vụ (Digital Cousins).
- Độ chính xác trong đánh giá chiến lược robot đạt hệ số tương quan 0,911 so với thực tế.
- Hỗ trợ triển khai zero-shot, giúp robot thực hiện tốt các nhiệm vụ phức tạp ngay lần đầu.
- Giảm thiểu chi phí và thời gian so với phương pháp thu thập dữ liệu thực tế truyền thống.
Bài viết được AI dịch và tổng hợp tự động từ 量子位. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.