← Quay lại dòng tin

Mô hình · MarkTechPost

JetBrains ra mắt Mellum2: Mô hình MoE 12B tối ưu cho các tác vụ AI chuyên biệt

JetBrains vừa phát hành mã nguồn mở Mellum2, mô hình MoE 12B được huấn luyện trên 10,6 nghìn tỷ token. Đây là giải pháp hiệu năng cao, thiết kế riêng cho các quy trình xử lý AI đa mô hình đòi hỏi tốc

Điểm 65Thời gian

Tóm tắt

JetBrains vừa phát hành mã nguồn mở Mellum2, mô hình MoE 12B được huấn luyện trên 10,6 nghìn tỷ token. Đây là giải pháp hiệu năng cao, thiết kế riêng cho các quy trình xử lý AI đa mô hình đòi hỏi tốc độ và độ chính xác chuyên biệt.

Vì sao đáng chú ý

Mellum2 là bước tiến quan trọng từ JetBrains cho cộng đồng lập trình, tối ưu hóa hiệu suất cho các pipeline AI phức tạp, rất phù hợp với độc giả kỹ thuật.

Nội dung dịch chi tiết

JetBrains đã chính thức phát hành Mellum2 dưới giấy phép Apache 2.0. Đây là phiên bản kế nhiệm của mô hình 4B trước đó, được tối ưu hóa cho kỹ thuật phần mềm, bao gồm tạo mã, gỡ lỗi, suy luận đa bước và hỗ trợ lập trình hội thoại. Thay vì thay thế các mô hình lớn, Mellum2 được định vị là một thành phần nhanh, chuyên biệt trong các hệ thống AI lớn hơn.

Kiến trúc của Mellum2 sử dụng Mixture-of-Experts (MoE) với tổng cộng 12B tham số, nhưng chỉ kích hoạt 2,5B tham số trên mỗi token. Mô hình sở hữu 64 chuyên gia (experts) và kích hoạt 8 chuyên gia cho mỗi token, giúp duy trì tốc độ tính toán tương đương với mô hình 2,5B thông thường trong khi vẫn đảm bảo khả năng chuyên môn hóa cao.

Các thông số kỹ thuật đáng chú ý bao gồm: cửa sổ ngữ cảnh 131.072 token, sử dụng cơ chế Grouped-Query Attention (GQA) và Sliding Window Attention (SWA). Mô hình cũng tích hợp đầu ra Multi-Token Prediction (MTP), cho phép giải mã suy đoán (speculative decoding) mà không cần mô hình dự thảo riêng biệt. Mellum2 được huấn luyện trên 10,6 nghìn tỷ token qua ba giai đoạn, tập trung vào mã nguồn và nội dung toán học.

JetBrains cung cấp sáu phiên bản checkpoint, bao gồm các biến thể Instruct (cho phản hồi trực tiếp, độ trễ thấp) và Thinking (cho các quy trình suy luận từng bước phức tạp). Mô hình hỗ trợ tốt các tác vụ như điều phối hệ thống đa mô hình, tóm tắt ngữ cảnh trong RAG và thực hiện các bước lặp lại trong quy trình đại lý (agentic workflows).

Mặc dù đạt kết quả ấn tượng trong các bài kiểm tra về mã nguồn như EvalPlus (78,4) và BFCL v3 (66,3), Mellum2 không phải là mô hình đa phương thức và không được thiết kế để thay thế các mô hình frontier. Đây là công cụ hiệu quả cho các kỹ sư muốn tự triển khai trên hạ tầng riêng với yêu cầu về độ trễ thấp và khả năng kiểm soát dữ liệu.

Ý chính từ bài gốc

  • Mô hình MoE 12B với 2,5B tham số hoạt động, tối ưu hóa hiệu suất tính toán.
  • Hỗ trợ cửa sổ ngữ cảnh lên tới 131.072 token và tích hợp giải mã suy đoán.
  • Phát hành dưới giấy phép Apache 2.0, cho phép sử dụng thương mại và tự lưu trữ.
  • Cung cấp hai biến thể Instruct và Thinking cho các nhu cầu suy luận khác nhau.
  • Phù hợp cho các tác vụ điều phối, RAG và quy trình đại lý AI chuyên biệt.

Bài viết được AI dịch và tổng hợp tự động từ MarkTechPost. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.