← Quay lại dòng tin

Mô hình · StepFun

Step 3.7 Flash: Mô hình thị giác 198B tối ưu cho máy trạm cá nhân

Step 3.7 Flash là mô hình thị giác 198B mới từ StepFun, cho phép chạy trên thiết bị có 128GB RAM mà không cần bản tùy chỉnh. Người dùng cần cân nhắc giữa tính năng thị giác và độ dài ngữ cảnh khi triể

Điểm 80Thời gian

Tóm tắt

Step 3.7 Flash là mô hình thị giác 198B mới từ StepFun, cho phép chạy trên thiết bị có 128GB RAM mà không cần bản tùy chỉnh. Người dùng cần cân nhắc giữa tính năng thị giác và độ dài ngữ cảnh khi triển khai.

Vì sao đáng chú ý

Thông tin kỹ thuật thực tế, hữu ích cho cộng đồng chạy mô hình cục bộ (local LLM) với các thông số phần cứng cụ thể.

Nội dung dịch chi tiết

StepFun đã chính thức phát hành Step 3.7 Flash, một mô hình thị giác với 198 tỷ tham số, được tối ưu hóa để vận hành trên các thiết bị để bàn như DGX Spark.

Theo kết quả kiểm tra thực tế từ người dùng, ngưỡng tối thiểu để vận hành mô hình này là 128GB bộ nhớ thống nhất (unified memory), trong đó riêng mô hình đã chiếm khoảng 104GB.

Việc triển khai mô hình khá thuận tiện khi không yêu cầu nhánh llama.cpp chuyên dụng từ nhà phát triển, mà có thể sử dụng trực tiếp phiên bản chính thức (mainline).

Người dùng cần lưu ý về sự đánh đổi giữa tính năng thị giác và độ dài ngữ cảnh. Khi kích hoạt tính năng thị giác, giới hạn ngữ cảnh tối đa là 64K với q8 KV cache.

Nếu muốn sử dụng ngữ cảnh tối đa lên tới 256K, người dùng buộc phải vô hiệu hóa tính năng thị giác và chuyển sang q4 KV cache. Trong cấu hình này, tổng dung lượng bộ nhớ tiêu thụ cho mô hình và bộ nhớ đệm là khoảng 114GB.

Đây là một mô hình suy luận (reasoning model), do đó quá trình tư duy có thể tiêu tốn lượng lớn 'max_tokens'. Người dùng cần chú ý thiết lập thông số này một cách hợp lý.

Ý chính từ bài gốc

  • Step 3.7 Flash là mô hình thị giác 198B tham số, tối ưu cho thiết bị để bàn.
  • Yêu cầu phần cứng tối thiểu là 128GB bộ nhớ thống nhất, mô hình chiếm khoảng 104GB.
  • Triển khai dễ dàng bằng phiên bản llama.cpp chính thức mà không cần nhánh riêng.
  • Giới hạn ngữ cảnh 64K khi bật thị giác (q8 KV cache) và 256K khi tắt thị giác (q4 KV cache).
  • Là mô hình suy luận, cần lưu ý thiết lập giới hạn max_tokens cho quá trình tư duy.

Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.