Mô hình · Hacker News Nổi bật（buzzing.cc bản dịch tiếng Trung）

GLM5.2 trên AMD MI355X: Hiệu suất ấn tượng với chi phí chỉ bằng một nửa Blackwell

Đội ngũ Wafer tối ưu hóa GLM5.2 trên AMD MI355X bằng định dạng MXFP4, đạt tốc độ 2626 tok/s mỗi node. Với hiệu suất bằng 80% so với B200 nhưng chi phí thấp hơn 2,75 lần, đây là bước tiến lớn cho hạ tầ

Điểm 56Thời gian 09:44

Tóm tắt

Vì sao đáng chú ý

Tin tức kỹ thuật chuyên sâu, cung cấp giải pháp thực tế giúp giảm chi phí vận hành AI đáng kể, rất có giá trị cho cộng đồng kỹ sư và doanh nghiệp.

Nội dung dịch chi tiết

Wafer vừa công bố triển khai thành công mô hình GLM-5.2 trên nền tảng AMD MI355X, hợp tác cùng Vercel AI Gateway và OpenRouter. Trong bối cảnh nhu cầu suy luận (inference) tăng vọt và nguồn cung GPU NVIDIA Blackwell khan hiếm, AMD nổi lên như một giải pháp thay thế hiệu quả với chi phí rẻ hơn khoảng 2,75 lần.

Thách thức lớn nhất khi sử dụng AMD là thiếu sự hỗ trợ phần mềm đồng bộ ngay từ ngày đầu (day-0 support) so với NVIDIA. Tuy nhiên, Wafer đã chứng minh rằng khoảng cách này đang dần thu hẹp. Với khối lượng công việc 20k đầu vào/1k đầu ra và tỷ lệ cache hit 60%, họ đạt thông lượng 2626 tok/s/node, chỉ thấp hơn 20% so với B200 nhưng với chi phí rẻ hơn gấp đôi.

Để đạt được kết quả này, Wafer đã sử dụng định dạng lượng tử hóa MXFP4 với AMD Quark, cho kết quả không mất dữ liệu so với bf16 gốc. Về khung suy luận, họ chọn sglang thay vì vLLM hay ATOM nhờ khả năng hỗ trợ tốt hơn cho các cấu hình lượng tử hóa và tính ổn định cao.

Quá trình tối ưu hóa đòi hỏi một số điều chỉnh kỹ thuật, bao gồm việc sửa lỗi tiền tố module trong sglang để cho phép giải mã suy đoán (speculative decode) hoạt động. Việc này giúp tăng thông lượng luồng đơn lên gấp 3 lần. Ngoài ra, họ cũng tự tinh chỉnh kernel MoE cho các hình dạng fp4 của GLM-5.2, giúp cải thiện đáng kể hiệu suất prefill.

Kết quả thực tế cho thấy, dù vẫn còn một số trở ngại về khung phần mềm, việc đạt được tỷ lệ hiệu năng trên giá thành tối ưu trên MI355X không còn quá khó khăn. Điều này cho thấy lợi thế độc quyền của CUDA đang dần bị xóa bỏ khi các kỹ thuật tối ưu hóa hệ thống ngày càng hoàn thiện.

Ý chính từ bài gốc

Vận hành GLM-5.2 trên AMD MI355X với chi phí thấp hơn gấp đôi so với NVIDIA Blackwell.
Đạt thông lượng 2626 tok/s/node nhờ tối ưu hóa kernel MoE và giải mã suy đoán.
Sử dụng định dạng lượng tử hóa MXFP4 với AMD Quark giúp duy trì độ chính xác mô hình.
Lựa chọn sglang làm khung suy luận chính nhờ khả năng hỗ trợ phần cứng AMD tốt hơn.
Khoảng cách hiệu năng giữa AMD và NVIDIA đang thu hẹp nhờ sự cải thiện trong hỗ trợ phần mềm.

Mở bài gốc