← Quay lại dòng tin

Nghiên cứu · Artificial Analysis

NVIDIA Cosmos 3 thống trị bảng xếp hạng mô hình mã nguồn mở về tạo ảnh và video

Mô hình thế giới đa phương thức Cosmos 3 của NVIDIA vừa chiếm lĩnh vị trí dẫn đầu trên bảng xếp hạng Artificial Analysis ở cả hai hạng mục tạo ảnh và video từ văn bản. Với kiến trúc Mixture-of-Transfo

Điểm 77Thời gian

Tóm tắt

Mô hình thế giới đa phương thức Cosmos 3 của NVIDIA vừa chiếm lĩnh vị trí dẫn đầu trên bảng xếp hạng Artificial Analysis ở cả hai hạng mục tạo ảnh và video từ văn bản. Với kiến trúc Mixture-of-Transformers, mô hình này cung cấp hiệu suất vượt trội và hiện đã được phát hành mã nguồn mở.

Vì sao đáng chú ý

Đây là bước tiến quan trọng của NVIDIA trong lĩnh vực mô hình mở, cạnh tranh trực tiếp với các đối thủ hàng đầu, thu hút sự quan tâm lớn từ cộng đồng AI.

Nội dung dịch chi tiết

Mô hình thế giới toàn diện Cosmos 3 của NVIDIA đã chính thức chiếm lĩnh vị trí dẫn đầu trong danh mục mô hình có trọng số mở (open-weights) trên bảng xếp hạng Artificial Analysis. Cụ thể, mô hình này đạt hạng nhất ở cả hai lĩnh vực: tạo hình ảnh từ văn bản và tạo video từ hình ảnh.

Cosmos 3 được xây dựng dựa trên kiến trúc Mixture-of-Transformers, kết hợp giữa bộ suy luận tự hồi quy (autoregressive) và bộ tạo khuếch tán (diffusion). Mô hình cung cấp các biến thể đa dạng, bao gồm phiên bản Nano với 16 tỷ tham số và phiên bản Super với 64 tỷ tham số.

Trong các bài kiểm tra, phiên bản Cosmos3-Super-Text2Image và Cosmos3-Super-Image2Video đã vượt qua nhiều đối thủ cạnh tranh mạnh mẽ như HiDream-O1-Image-Dev-2604, Qwen Image Max 2512, FLUX.2 [dev], LTX-2 và Wan 2.2 A14B.

Bộ tạo của Cosmos 3 hỗ trợ các câu lệnh (prompt) định dạng JSON có cấu trúc. Người dùng có thể thực hiện việc nâng cấp câu lệnh thông qua các công cụ bên ngoài hoặc sử dụng chính nhánh suy luận của mô hình.

Hiện tại, Cosmos 3 đã được phát hành hoàn toàn dưới giấy phép OpenMDW 1.1. NVIDIA cung cấp đầy đủ trọng số, mã nguồn, các bộ dữ liệu chọn lọc và phương án tinh chỉnh để cộng đồng có thể tiếp cận và phát triển.

Ý chính từ bài gốc

  • Cosmos 3 dẫn đầu bảng xếp hạng Artificial Analysis về tạo ảnh và video.
  • Sử dụng kiến trúc Mixture-of-Transformers với các phiên bản 16B và 64B.
  • Vượt qua các đối thủ như FLUX.2, Qwen Image Max và Wan 2.2.
  • Hỗ trợ câu lệnh JSON có cấu trúc và khả năng tự nâng cấp câu lệnh.
  • Phát hành mã nguồn mở theo giấy phép OpenMDW 1.1.

Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.