Mô hình · StepFun
StepFun ra mắt Step 3.7 Flash: Mô hình MoE 196B tối ưu hóa hiệu suất suy luận vượt trội
Step 3.7 Flash là mô hình MoE 196B tập trung vào hiệu quả suy luận, giảm chi phí KV-cache xuống chỉ còn 22% so với DeepSeek nhờ công nghệ phân tách ma trận. Mô hình hiện đã phát hành mã nguồn mở theo
Tóm tắt
Step 3.7 Flash là mô hình MoE 196B tập trung vào hiệu quả suy luận, giảm chi phí KV-cache xuống chỉ còn 22% so với DeepSeek nhờ công nghệ phân tách ma trận. Mô hình hiện đã phát hành mã nguồn mở theo giấy phép Apache 2.0 trên nền tảng Fireworks AI.
Vì sao đáng chú ý
Đây là bước tiến quan trọng trong tối ưu hóa hạ tầng AI, đặc biệt là khả năng giảm chi phí bộ nhớ KV-cache, rất hữu ích cho các nhà phát triển ứng dụng AI quy mô lớn.
Nội dung dịch chi tiết
StepFun đã chính thức công bố mô hình Step 3.7 Flash, một mô hình được tối ưu hóa đặc biệt cho các tác vụ suy luận.
Sở hữu kiến trúc 196B MoE, mô hình này được định hướng tập trung vào hiệu quả suy luận ngay từ giai đoạn thiết kế ban đầu.
Nhờ áp dụng cơ chế chú ý phân tách đa ma trận, Step 3.7 Flash giúp giảm chi phí KV-cache xuống chỉ còn khoảng 22% so với các mô hình của DeepSeek.
Bên cạnh đó, công nghệ tách rời giữa cơ chế chú ý và FFN (Feed-Forward Network) đã giúp mô hình đạt được hiệu suất phục vụ cao thông qua tối ưu hóa phần cứng.
Hiện tại, mô hình đã có sẵn trên nền tảng Fireworks AI. Sản phẩm được phát hành theo giấy phép Apache 2.0, cho phép người dùng ứng dụng linh hoạt trong việc xây dựng các hệ thống đại lý thông minh (AI agents).
Ý chính từ bài gốc
- Step 3.7 Flash là mô hình 196B MoE tập trung vào hiệu suất suy luận.
- Chi phí KV-cache giảm mạnh, chỉ bằng 22% so với mô hình DeepSeek.
- Sử dụng công nghệ tách rời chú ý và FFN để tối ưu hóa phần cứng.
- Phát hành theo giấy phép Apache 2.0, hỗ trợ xây dựng ứng dụng đại lý thông minh.
- Đã có sẵn trên nền tảng Fireworks AI.
Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.