Mô hình · NVIDIA Technical Blog (Blog - RSS)
NVIDIA Cosmos 3: Bước tiến mới trong phát triển mô hình AI vật lý, thế giới và hành động
NVIDIA Cosmos 3 là mô hình nền tảng tiên phong giúp robot và xe tự lái hiểu thế giới thực, dự đoán sự kiện và tạo ra các hành động thích ứng với môi trường cụ thể.
Tóm tắt
NVIDIA Cosmos 3 là mô hình nền tảng tiên phong giúp robot và xe tự lái hiểu thế giới thực, dự đoán sự kiện và tạo ra các hành động thích ứng với môi trường cụ thể.
Vì sao đáng chú ý
Đây là thông tin quan trọng về công nghệ lõi cho robot và AI thực tế, có giá trị cao đối với cộng đồng kỹ thuật và phát triển AI tại Việt Nam.
Nội dung dịch chi tiết
Các hệ thống AI vật lý cần hiểu rõ thế giới thực trước khi có thể tương tác. Robot, xe tự lái và không gian thông minh đòi hỏi khả năng nắm bắt tình huống, dự đoán tương lai và tạo ra các hành động phù hợp. NVIDIA Cosmos 3 giải quyết thách thức này bằng cách hợp nhất các khả năng suy luận và tạo lập vào một mô hình duy nhất.
Kiến trúc Mixture-of-Transformers (MoT) của Cosmos 3 bao gồm hai thành phần chính: 'Reasoner tower' (tháp suy luận) đóng vai trò bộ não, diễn giải dữ liệu đa phương thức như hình ảnh, video và văn bản; và 'Generator tower' (tháp tạo lập) sử dụng quy trình khuếch tán để tạo ra video và chuỗi hành động dựa trên sự hiểu biết của tháp suy luận.
NVIDIA cung cấp hai phiên bản: Cosmos 3 Nano (16 tỷ tham số) tối ưu cho các thiết bị trạm làm việc như GPU NVIDIA RTX PRO 6000, và Cosmos 3 Super (64 tỷ tham số) dành cho trung tâm dữ liệu với GPU NVIDIA Hopper và Blackwell. Cả hai đều hỗ trợ đa dạng các đầu vào/đầu ra từ văn bản, hình ảnh đến video và hành động.
Để thúc đẩy phát triển, NVIDIA đã mở mã nguồn các tập dữ liệu tổng hợp (SDG) về robot, vật lý, xe tự lái và kho bãi trên Hugging Face. Các nhà phát triển có thể sử dụng các tập lệnh tinh chỉnh (SFT) để tùy chỉnh mô hình cho các lĩnh vực chuyên biệt, từ dự đoán động lực học đến học chính sách cho robot.
Việc triển khai được tối ưu hóa thông qua các microservices NVIDIA NIM, hỗ trợ các kỹ thuật như định lượng (quantization) NVFP4 giúp tăng tốc độ suy luận lên gấp đôi. Ngoài ra, khung đánh giá NVIDIA Cosmos Human Evaluation (HUE) mới cũng được giới thiệu để đảm bảo chất lượng mô hình thông qua kiểm chứng thực tế thay vì chỉ dựa vào các bảng xếp hạng tự động.
Ý chính từ bài gốc
- Cosmos 3 hợp nhất suy luận vật lý, tạo thế giới và tạo hành động vào một kiến trúc duy nhất.
- Kiến trúc MoT gồm tháp suy luận (VLM) và tháp tạo lập (diffusion) giúp đơn giản hóa quy trình phát triển.
- Cung cấp hai phiên bản: Nano (16B) cho trạm làm việc và Super (64B) cho trung tâm dữ liệu.
- Mở mã nguồn tập dữ liệu tổng hợp và tập lệnh tinh chỉnh (SFT) trên GitHub và Hugging Face.
- Hỗ trợ triển khai sản xuất thông qua microservices NVIDIA NIM với khả năng tối ưu hóa hiệu suất.
Bài viết được AI dịch và tổng hợp tự động từ NVIDIA Technical Blog. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.