← Quay lại dòng tin

Mô hình · Berryxia.AI

Bí mật kỹ thuật đằng sau đợt giảm giá API của Xiaomi MiMo-V2.5

Xiaomi đã tối ưu hóa kiến trúc Hybrid Sliding Window Attention và hệ thống quản lý KVCache, giúp tăng 5 lần dung lượng bộ nhớ và giảm đáng kể chi phí suy luận cho dòng MiMo-V2.5.

Điểm 51Thời gian

Tóm tắt

Xiaomi đã tối ưu hóa kiến trúc Hybrid Sliding Window Attention và hệ thống quản lý KVCache, giúp tăng 5 lần dung lượng bộ nhớ và giảm đáng kể chi phí suy luận cho dòng MiMo-V2.5.

Vì sao đáng chú ý

Bài viết cung cấp cái nhìn sâu sắc về kỹ thuật tối ưu hóa hạ tầng AI, giải thích rõ ràng lý do tại sao việc giảm giá API là khả thi về mặt công nghệ.

Nội dung dịch chi tiết

Dòng Xiaomi MiMo-V2.5 gần đây đã thực hiện giảm giá API. Nền tảng cốt lõi cho thay đổi này là việc đội ngũ kỹ thuật đã tiến hành tái cấu trúc toàn diện hệ thống suy luận.

Mô hình dựa trên kiến trúc Hybrid Sliding Window Attention, về lý thuyết có thể nén bộ nhớ KVCache xuống còn khoảng 1/7 so với các mô hình toàn chú ý (full-attention).

Để hiện thực hóa ưu thế của kiến trúc này, đội ngũ đã thiết kế lại quy trình quản lý KVCache, bộ nhớ đệm phân cấp và cây tiền tố (prefix-cache tree), đồng thời tối ưu hóa sâu sắc quy trình lập lịch và đường ống Prefill/Decode.

Thông qua kiểm chứng với lưu lượng sản xuất thực tế, dung lượng KVCache hiệu dụng đã tăng gần 5 lần, với tỷ lệ trúng bộ nhớ đệm phía máy chủ duy trì ổn định ở mức 93%-95%.

Những tối ưu hóa này kết hợp cùng việc điều chỉnh cấu hình MoE đã giúp giảm đáng kể chi phí suy luận cho các ngữ cảnh dài, từ đó tạo điều kiện cho đợt giảm giá lần này.

Ý chính từ bài gốc

  • Xiaomi MiMo-V2.5 giảm giá API nhờ tái cấu trúc hệ thống suy luận.
  • Sử dụng kiến trúc Hybrid Sliding Window Attention giúp nén KVCache xuống 1/7.
  • Tối ưu hóa quản lý KVCache, bộ nhớ đệm phân cấp và cây tiền tố.
  • Dung lượng KVCache hiệu dụng tăng gần 5 lần, tỷ lệ trúng bộ nhớ đệm đạt 93%-95%.
  • Kết hợp điều chỉnh MoE giúp giảm chi phí suy luận cho ngữ cảnh dài.

Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.