← Quay lại dòng tin

Nghiên cứu · NVIDIA AI Blog

NVIDIA ra mắt Cosmos 3: Mô hình nền tảng giúp AI 'tư duy trước khi hành động'

NVIDIA giới thiệu Cosmos 3, mô hình nền tảng mã nguồn mở cho robot và xe tự lái, kết hợp khả năng suy luận hình ảnh và tạo lập đa phương thức để dự đoán hành động vật lý chính xác.

Điểm 84Thời gian

Tóm tắt

NVIDIA giới thiệu Cosmos 3, mô hình nền tảng mã nguồn mở cho robot và xe tự lái, kết hợp khả năng suy luận hình ảnh và tạo lập đa phương thức để dự đoán hành động vật lý chính xác.

Vì sao đáng chú ý

Đây là bước tiến quan trọng trong lĩnh vực AI thực thể (Embodied AI) từ NVIDIA, có tính ứng dụng cao và tác động lớn đến cộng đồng phát triển robot.

Nội dung dịch chi tiết

Thế giới thực luôn vận động không ngừng. Để hoạt động tự chủ, các hệ thống AI vật lý như robot, xe tự hành (AV) và không gian thông minh cần hiểu rõ không chỉ những gì chúng nhìn thấy, mà còn cả nguyên nhân và những diễn biến tiếp theo. Việc ghi lại và tái tạo các kịch bản này trong thực tế thường tốn kém và khó thực hiện ở quy mô lớn.

NVIDIA Cosmos 3 được thiết kế để giải quyết thách thức này. Được công bố tại NVIDIA GTC Taipei trong khuôn khổ COMPUTEX, đây là mô hình nền tảng thế giới kết hợp suy luận thị giác và tạo nội dung đa phương thức (văn bản, video, hình ảnh, âm thanh môi trường và hành động). Kiến trúc hỗn hợp transformer của Cosmos 3 cho phép mô hình giải mã bối cảnh hiện trường, sau đó tạo ra các kết quả đầu ra có tính vật lý, từ video tổng hợp đến dữ liệu tác vụ robot.

Cosmos 3 đóng vai trò là một mô hình tổng quát với khả năng tạo hành động gốc. Nó có thể sản xuất dữ liệu hành động số như góc khớp, vị trí kẹp và quỹ đạo di chuyển, giúp robot thực hiện các tác vụ phức tạp như gắp và đặt vật thể. Các nhà phát triển có thể tinh chỉnh Cosmos 3 để phù hợp với từng loại robot, cấu hình camera hoặc không gian làm việc cụ thể.

Trong lĩnh vực đô thị và không gian thông minh, Cosmos 3 giúp nhận diện các vật thể đang di chuyển và dự đoán trạng thái tương lai. Điều này hỗ trợ các hệ thống video trong nhà máy hoặc giao thông công cộng diễn giải hoạt động theo thời gian, phát hiện bất thường và cung cấp ngữ cảnh phong phú cho người vận hành. Các đối tác như Linker Vision đang sử dụng công nghệ này để phân tích luồng camera trực tiếp và tối ưu hóa vận hành thành phố.

Ngoài ra, Cosmos 3 còn hỗ trợ tạo ra các kịch bản hiếm gặp hoặc các tình huống va chạm khó ghi lại trong thực tế. Bằng cách tạo ra các chuỗi video có tính vật lý cao, mô hình giúp huấn luyện robot và xe tự hành đối phó với những tình huống biên (edge cases) một cách an toàn.

Hiện tại, các nhà phát triển có thể thử nghiệm Cosmos 3 trên nền tảng build.nvidia.com, tải xuống các mô hình mở từ Hugging Face và triển khai thông qua các dịch vụ vi mô NVIDIA NIM. Với giấy phép OpenMDW 1.1 từ Linux Foundation, việc chia sẻ và đóng góp tài nguyên mô hình trở nên thuận tiện hơn bao giờ hết.

Ý chính từ bài gốc

  • Cosmos 3 là mô hình nền tảng thế giới mã nguồn mở giúp AI vật lý suy luận và dự đoán trước khi hành động.
  • Tích hợp đa phương thức bao gồm thị giác, văn bản, âm thanh và dữ liệu hành động robot.
  • Hỗ trợ tạo dữ liệu tổng hợp và quỹ đạo hành động cho robot trong các môi trường phức tạp.
  • Ứng dụng mạnh mẽ trong việc giám sát giao thông, nhà máy và phát hiện các tình huống bất thường.
  • Cung cấp tài nguyên mở qua Hugging Face và GitHub với giấy phép OpenMDW 1.1 linh hoạt.

Bài viết được AI dịch và tổng hợp tự động từ NVIDIA Blog. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.