← Quay lại dòng tin

Mô hình · NVIDIA Technical Blog (Blog - RSS)

Triển khai mô hình đa phương thức Step 3.7 Flash trên GPU NVIDIA cho doanh nghiệp

Jieyue Chenchen ra mắt Step 3.7 Flash, mô hình đa phương thức 198B tham số hỗ trợ xử lý thời gian thực hình ảnh, video và văn bản, tối ưu hóa cho hạ tầng GPU NVIDIA.

Điểm 70Thời gian

Tóm tắt

Jieyue Chenchen ra mắt Step 3.7 Flash, mô hình đa phương thức 198B tham số hỗ trợ xử lý thời gian thực hình ảnh, video và văn bản, tối ưu hóa cho hạ tầng GPU NVIDIA.

Vì sao đáng chú ý

Nội dung kỹ thuật chuyên sâu, cung cấp giải pháp thực tế cho doanh nghiệp muốn triển khai mô hình đa phương thức quy mô lớn trên hạ tầng NVIDIA.

Nội dung dịch chi tiết

Step 3.7 Flash từ StepFun là mô hình ngôn ngữ-hình ảnh Mixture-of-Experts (MoE) với 198 tỷ tham số, được thiết kế cho các quy trình doanh nghiệp quy mô lớn. Mô hình hỗ trợ đầu vào là hình ảnh và video, cùng cửa sổ ngữ cảnh 256k, cho phép thực hiện các tác vụ như phân tích tài chính, lập trình đồng thời và suy luận đa bước.

Với khoảng 11 tỷ tham số kích hoạt mỗi lần truyền, mô hình được tối ưu hóa để đạt hiệu suất cao. Các nhà phát triển có thể sử dụng checkpoint định dạng NVFP4 từ Hugging Face để giảm băng thông bộ nhớ và yêu cầu lưu trữ, từ đó tăng tốc độ suy luận.

Việc triển khai Step 3.7 Flash trở nên linh hoạt hơn nhờ các khung làm việc mã nguồn mở như SGLang, NVIDIA TensorRT-LLM và vLLM. Ngoài ra, NVIDIA NIM cung cấp các microservice suy luận được đóng gói container, hỗ trợ API tiêu chuẩn hóa, giúp doanh nghiệp dễ dàng triển khai trên hạ tầng tại chỗ, đám mây hoặc môi trường lai.

Để tùy chỉnh mô hình theo nhu cầu chuyên biệt, người dùng có thể sử dụng khung làm việc NVIDIA NeMo. Công cụ này hỗ trợ tinh chỉnh (fine-tuning) từ ngày đầu tiên (Day 0) với các kỹ thuật như SFT và LoRA tiết kiệm bộ nhớ, đạt tốc độ 600 token/giây trên GPU Hopper.

Các nhà phát triển có thể bắt đầu thử nghiệm và đánh giá mô hình thông qua các điểm cuối (endpoints) tăng tốc bằng GPU tại build.nvidia.com. Đối với các yêu cầu triển khai quy mô lớn, NVIDIA DGX Station với 748 GB bộ nhớ đồng nhất là lựa chọn lý tưởng để tận dụng tối đa cửa sổ ngữ cảnh 256k của mô hình.

Ý chính từ bài gốc

  • Step 3.7 Flash là mô hình MoE 198B tham số, hỗ trợ đầu vào đa phương thức (hình ảnh, video) và cửa sổ ngữ cảnh 256k.
  • Tối ưu hóa cho doanh nghiệp với khả năng suy luận đa bước, phù hợp cho phân tích tài chính và các tác vụ đòi hỏi thông lượng cao.
  • Hỗ trợ triển khai linh hoạt qua NVIDIA NIM, SGLang, TensorRT-LLM và vLLM trên hạ tầng tại chỗ hoặc đám mây.
  • Cho phép tinh chỉnh chuyên sâu bằng khung làm việc NVIDIA NeMo với các kỹ thuật như SFT và LoRA.
  • Nhà phát triển có thể thử nghiệm mô hình nhanh chóng thông qua các điểm cuối GPU tại build.nvidia.com.

Bài viết được AI dịch và tổng hợp tự động từ NVIDIA Technical Blog. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.