← Quay lại dòng tin

Tin ngành · LMSYS: Blog (Chatbot Arena )

SGLang và AMD tối ưu hóa DeepSeek-R1: Hiệu suất vượt trội trên GPU Instinct MI355X

SGLang hợp tác cùng AMD tối ưu hóa toàn diện, giúp GPU MI355X đạt chi phí vận hành DeepSeek-R1 thấp hơn tới 40% so với NVIDIA B200, đồng thời tăng 25% hiệu suất trên mỗi GPU.

Điểm 92Thời gian

Tóm tắt

SGLang hợp tác cùng AMD tối ưu hóa toàn diện, giúp GPU MI355X đạt chi phí vận hành DeepSeek-R1 thấp hơn tới 40% so với NVIDIA B200, đồng thời tăng 25% hiệu suất trên mỗi GPU.

Vì sao đáng chú ý

Tin tức quan trọng về tối ưu hóa hạ tầng AI, cung cấp giải pháp thay thế cạnh tranh cho NVIDIA với số liệu thực tế, rất có giá trị cho kỹ sư và doanh nghiệp.

Nội dung dịch chi tiết

Đội ngũ SGLang và AMD đã hợp tác chặt chẽ để tối ưu hóa Tổng chi phí sở hữu (TCO) cho việc suy luận phân tán mô hình DeepSeek-R1 trên GPU AMD Instinct™ MI355X. Kết quả cho thấy AMD đạt được TCO cạnh tranh, thậm chí vượt trội hơn so với NVIDIA B200 chạy Dynamo + TRT-LLM trong các điều kiện vận hành quan trọng.

Tại mức tương tác 129 token/giây/người dùng, AMD Instinct™ MI355X đạt chi phí 0,169 USD trên mỗi triệu token, thấp hơn 5% so với B200 TRT-LLM và 40% so với B200 SGLang. Về hiệu suất, hệ thống đạt 2.436 token/giây/GPU trên 24 GPU, cao gấp 1,25 lần so với B200 SGLang (48 GPU).

Các tối ưu hóa toàn diện bao gồm: MoRI quantized all-to-all giúp giảm băng thông tới 2,56 lần, MoRI-IO KV cache backend tăng khoảng 10% thông lượng so với Mooncake, và kỹ thuật Two-Batch Overlap (TBO) sử dụng SDMA để chồng lấp tính toán và truyền tải dữ liệu. Ngoài ra, việc sử dụng FlyDSL cho FusedMoE giúp tăng tốc tính toán đáng kể.

MoRI-EP hỗ trợ truyền thông lượng tử hóa đa cấp (FP4/FP8), giúp giảm đáng kể khối lượng truyền tải dữ liệu mà không làm giảm độ chính xác. Hệ thống tự động chọn nhân truyền thông tối ưu dựa trên đặc điểm khối lượng công việc, đảm bảo giai đoạn prefill sử dụng nhân thông lượng cao và giai đoạn decode sử dụng nhân độ trễ thấp.

Kỹ thuật TBO giúp ẩn độ trễ truyền thông bằng cách đan xen tính toán và truyền dữ liệu giữa hai micro-batch. Khi kết hợp với SDMA, dữ liệu được di chuyển giữa bộ nhớ GPU và giao diện mạng mà không tiêu tốn tài nguyên tính toán, giúp tối đa hóa hiệu suất của các đơn vị tính toán cho các tác vụ GEMM.

Ý chính từ bài gốc

  • AMD Instinct™ MI355X đạt chi phí 0,169 USD/triệu token, thấp hơn 5-40% so với cấu hình NVIDIA B200.
  • Thông lượng đạt 2.436 token/giây/GPU, cao gấp 1,25 lần so với B200 SGLang.
  • Công nghệ MoRI giảm băng thông truyền tải tới 2,56 lần thông qua kỹ thuật lượng tử hóa hybrid FP4/FP8.
  • Kỹ thuật Two-Batch Overlap (TBO) và SDMA giúp loại bỏ độ trễ truyền thông, tối ưu hóa tài nguyên tính toán.
  • MoRI-IO tăng 10% thông lượng so với Mooncake, hỗ trợ tốt cho các kiến trúc mô hình hiện đại.

Bài viết được AI dịch và tổng hợp tự động từ www.lmsys.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.