Nghiên cứu · : MiniMax
MiniMax M3: Mô hình đa phương thức toàn diện với khả năng lập trình vượt trội và cửa sổ ngữ cảnh 1 triệu token
MiniMax vừa ra mắt M3, mô hình AI đa phương thức thế hệ mới sở hữu khả năng lập trình mạnh mẽ cùng khả năng xử lý ngữ cảnh lên tới 1 triệu token, đáp ứng mọi nhu cầu từ phân tích dữ liệu đến sáng tạo
Tóm tắt
MiniMax vừa ra mắt M3, mô hình AI đa phương thức thế hệ mới sở hữu khả năng lập trình mạnh mẽ cùng khả năng xử lý ngữ cảnh lên tới 1 triệu token, đáp ứng mọi nhu cầu từ phân tích dữ liệu đến sáng tạo nội dung.
Vì sao đáng chú ý
Đây là bước tiến quan trọng của một trong những startup AI hàng đầu Trung Quốc, với thông số kỹ thuật ấn tượng cạnh tranh trực tiếp với các mô hình đầu bảng hiện nay.
Nội dung dịch chi tiết
MiniMax M3 là mô hình mới nhất của MiniMax, sở hữu khả năng lập trình và vận hành Agent chuyên sâu. Điểm đột phá nằm ở kiến trúc MiniMax Sparse Attention (MSA), cho phép hỗ trợ cửa sổ ngữ cảnh lên tới 1 triệu token mà vẫn đảm bảo hiệu suất tính toán cao, nhanh hơn gấp 4 lần so với các phương pháp Flash-Sparse-Attention hiện có.
Đây là mô hình đa phương thức thuần túy, có khả năng xử lý đầu vào từ hình ảnh, video và điều khiển trực tiếp giao diện máy tính. Trên các bảng xếp hạng uy tín như SWE-Bench Pro, M3 vượt qua nhiều đối thủ quốc tế, khẳng định vị thế dẫn đầu trong việc thực thi các tác vụ kỹ thuật phần mềm và tự động hóa.
Để giải quyết các bài toán Agent phức tạp, MiniMax đã xây dựng khung mô phỏng người dùng tương tác, giúp mô hình học cách cộng tác, lập kế hoạch và phản hồi linh hoạt như một lập trình viên thực thụ. Trong các thử nghiệm thực tế, M3 có thể tự động hóa quy trình tối ưu hóa nhân (kernel) FP8 trên GPU NVIDIA Hopper, đạt hiệu suất vượt trội sau hàng nghìn lần thử nghiệm tự chủ.
MiniMax cũng ra mắt MiniMax Code, công cụ hỗ trợ Agent được thiết kế riêng cho M3, cho phép chia nhỏ các dự án lớn thành các luồng công việc có thể chạy song song. Người dùng có thể trải nghiệm M3 thông qua API hoặc gói Token Plan với chi phí tối ưu, cùng hai chế độ vận hành: thinking (cho suy luận phức tạp) và non-thinking (cho phản hồi nhanh).
Ý chính từ bài gốc
- Kiến trúc MSA hỗ trợ ngữ cảnh 1 triệu token với hiệu suất tính toán tối ưu.
- Khả năng đa phương thức thuần túy: xử lý hình ảnh, video và điều khiển máy tính.
- Hiệu suất lập trình vượt trội trên SWE-Bench Pro, tiệm cận các mô hình hàng đầu thế giới.
- Hỗ trợ quy trình làm việc của Agent với khả năng tự phản hồi và điều chỉnh kế hoạch.
- Cung cấp API và gói Token Plan với chi phí cạnh tranh cho cá nhân và doanh nghiệp.
Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.