← Quay lại dòng tin

Mô hình · : Xiaomi MiMo

Tối ưu hóa toàn trình suy luận MiMo-V2.5: Đưa hiệu suất Hybrid SWA lên tầm cao mới

Dòng mô hình MiMo-V2.5 vừa đạt bước tiến lớn trong việc tối ưu hóa toàn trình suy luận, tập trung cải thiện đáng kể hiệu suất của cơ chế Hybrid SWA (Cửa sổ chú ý trượt hỗn hợp).

Điểm 59Thời gian

Tóm tắt

Dòng mô hình MiMo-V2.5 vừa đạt bước tiến lớn trong việc tối ưu hóa toàn trình suy luận, tập trung cải thiện đáng kể hiệu suất của cơ chế Hybrid SWA (Cửa sổ chú ý trượt hỗn hợp).

Vì sao đáng chú ý

Cập nhật kỹ thuật chuyên sâu về tối ưu hóa suy luận cho mô hình ngôn ngữ lớn, rất hữu ích cho các kỹ sư AI và nhà phát triển hạ tầng.

Nội dung dịch chi tiết

Dòng mô hình MiMo-V2.5 tích hợp kiến trúc Hybrid Sliding Window Attention (Hybrid SWA), cho phép giảm dung lượng lưu trữ KVCache xuống còn khoảng 1/7 so với Full Attention truyền thống. Bằng cách kết hợp các lớp cửa sổ trượt cục bộ với một số lớp chú ý toàn cục, mô hình duy trì được khả năng mô hình hóa phụ thuộc xa mà vẫn tối ưu hóa được chi phí tính toán.

Để hiện thực hóa tiềm năng của Hybrid SWA, hệ thống đã được thiết kế lại với cơ chế phân tách KVCache thành hai vùng độc lập (Full và SWA). Điều này cho phép quản lý bộ nhớ theo quy mô O(W) thay vì O(N), giúp giải phóng tài nguyên đáng kể. Đồng thời, hệ thống tiền tố (prefix cache) được nâng cấp với quy tắc "độ dài an toàn cửa sổ", đảm bảo tính chính xác khi tái sử dụng KV trong các kịch bản dài.

GCache, hệ thống lưu trữ hiệu năng cao, đóng vai trò là lớp đệm L3 quan trọng. Với khả năng hỗ trợ RDMA và cơ chế混布 (triển khai hỗn hợp) trên các máy chủ GPU, GCache giúp giảm chi phí lưu trữ xuống mức tối thiểu mà vẫn đảm bảo băng thông lớn. Việc tối ưu hóa sự nhất quán giữa các lớp cache (Device/Host/Storage) đã giúp tỷ lệ trúng cache trung bình đạt trên 93%.

Trong khâu lập lịch, bộ định tuyến LLM-Router được phát triển để hỗ trợ lập lịch dựa trên sự tương đồng của KVCache. Bằng cách ưu tiên các yêu cầu có tiền tố đã được lưu trữ và áp dụng chiến lược phân nhóm độ dài (bucket), hệ thống đã cải thiện đáng kể thông lượng đầu vào và giảm độ trễ TTFT (Time-To-First-Token) cho các yêu cầu dài.

Cuối cùng, các tối ưu hóa về kỹ thuật như tắt `numa_balancing` trong nhân hệ điều hành, tinh chỉnh CUDA Graph và hỗ trợ MTP (Multi-Token Prediction) trong giai đoạn Prefill đã giúp tăng hiệu suất đầu cuối thêm 10-40%. Những cải tiến này giúp MiMo-V2.5 duy trì hiệu năng ổn định ngay cả trong các tác vụ Agentic phức tạp với ngữ cảnh liên tục tăng trưởng.

Ý chính từ bài gốc

  • Hybrid SWA giảm dung lượng KVCache xuống 1/7, tối ưu hóa chi phí tính toán và bộ nhớ.
  • Hệ thống quản lý KVCache phân tầng giúp đạt tỷ lệ trúng cache trung bình trên 93%.
  • GCache tận dụng tài nguyên GPU sẵn có để lưu trữ, đạt băng thông đọc RDMA lên tới 350 GB/s.
  • Chiến lược lập lịch dựa trên tiền tố và phân nhóm độ dài giúp tăng 30% thông lượng đầu vào.
  • Tối ưu hóa toàn trình (từ nhân hệ điều hành đến MTP) giúp tăng hiệu suất thực tế từ 10-40%.

Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.