Nghiên cứu · IT Home
NVIDIA ra mắt Cosmos 3: Mô hình AI vật lý toàn diện, mã nguồn mở đầu tiên thế giới
NVIDIA giới thiệu Cosmos 3, mô hình AI đa phương thức mã nguồn mở có khả năng xử lý văn bản, hình ảnh, video và hành động, giúp rút ngắn chu kỳ huấn luyện AI vật lý từ vài tháng xuống vài ngày. Đây là
Tóm tắt
NVIDIA giới thiệu Cosmos 3, mô hình AI đa phương thức mã nguồn mở có khả năng xử lý văn bản, hình ảnh, video và hành động, giúp rút ngắn chu kỳ huấn luyện AI vật lý từ vài tháng xuống vài ngày. Đây là bước tiến đột phá cho robot và xe tự lái với hiệu suất dẫn đầu các bảng xếp hạng.
Vì sao đáng chú ý
Đây là bước ngoặt lớn trong lĩnh vực AI vật lý (Embodied AI) từ NVIDIA, có tính ứng dụng thực tiễn cao và tác động mạnh đến ngành robot và xe tự lái.
Nội dung dịch chi tiết
NVIDIA vừa chính thức ra mắt Cosmos 3, mô hình nền tảng thế giới mở dành cho trí tuệ nhân tạo (AI) vật lý. Được xây dựng trên kiến trúc Transformer lai, hệ thống này tích hợp khả năng suy luận thị giác, tạo dựng thế giới và dự đoán hành động trong một nền tảng duy nhất.
Cosmos 3 là mô hình toàn diện (full-modal) mã nguồn mở đầu tiên trên thế giới có khả năng hiểu và tạo ra văn bản, hình ảnh, video, âm thanh môi trường và các chuỗi hành động. Công nghệ này giúp rút ngắn chu trình huấn luyện và đánh giá AI vật lý từ vài tháng xuống còn vài ngày.
Để thúc đẩy công nghệ này, NVIDIA đã thành lập "NVIDIA Cosmos Coalition" với sự tham gia của các đối tác như Agile Robots, Black Forest Labs, Generalist, LTX, Runway và Skild AI. CEO Jensen Huang nhấn mạnh rằng Cosmos 3 sẽ giúp các nhà phát triển tạo ra robot và xe tự lái có khả năng cảm nhận, suy luận và thực thi hành động trong thế giới thực.
Giải quyết bài toán về khả năng khái quát hóa trong môi trường thực tế, Cosmos 3 kết hợp giữa Transformer suy luận và Transformer chuyên biệt về tạo dựng. Mô hình phân tích các tương tác vật thể, quy luật chuyển động và mối quan hệ không gian - thời gian trước khi thực hiện tạo video hoặc dự đoán quỹ đạo hành động.
Được huấn luyện trên tập dữ liệu đa phương thức khổng lồ, Cosmos 3 cho phép các nhà phát triển xây dựng hệ thống AI vật lý với ít dữ liệu và chi phí thấp hơn. Mô hình hiện dẫn đầu nhiều bảng xếp hạng uy tín như Artificial Analysis, Physics-IQ, PAI-Bench và RoboLab về độ chính xác trong tạo dựng thế giới và khả năng chiến lược hành động.
NVIDIA cung cấp ba phiên bản để đáp ứng các nhu cầu khác nhau: Cosmos 3 Super dành cho việc huấn luyện lại các mô hình robot và xe tự lái; Cosmos 3 Nano tập trung vào tốc độ phân tích video và suy luận hành động; và Cosmos 3 Edge (sắp ra mắt) tối ưu cho suy luận thời gian thực tại biên.
Ý chính từ bài gốc
- NVIDIA ra mắt Cosmos 3, mô hình AI vật lý mã nguồn mở toàn diện đầu tiên trên thế giới.
- Sử dụng kiến trúc Transformer lai, tích hợp suy luận thị giác, tạo dựng thế giới và dự đoán hành động.
- Rút ngắn đáng kể thời gian huấn luyện và đánh giá AI vật lý từ vài tháng xuống còn vài ngày.
- Thành lập liên minh NVIDIA Cosmos Coalition để thúc đẩy phát triển công nghệ thế giới mô hình.
- Cung cấp 3 phiên bản (Super, Nano, Edge) phù hợp cho nhiều nhu cầu từ nghiên cứu đến ứng dụng thực tế.
Bài viết được AI dịch và tổng hợp tự động từ www.ithome.com. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.