← Quay lại dòng tin

Mô hình · LMSYS: Blog (Chatbot Arena )

LMSYS và Intel tối ưu hóa mô hình ngôn ngữ thị giác nhờ kiến trúc EPD dị thể CPU+GPU

LMSYS và Intel giới thiệu kiến trúc EPD giúp giảm tải tác vụ mã hóa thị giác từ GPU sang CPU, tăng 30% hiệu suất xử lý và giảm đáng kể độ trễ cho các mô hình VLM như Qwen3-VL.

Điểm 61Thời gian

Tóm tắt

LMSYS và Intel giới thiệu kiến trúc EPD giúp giảm tải tác vụ mã hóa thị giác từ GPU sang CPU, tăng 30% hiệu suất xử lý và giảm đáng kể độ trễ cho các mô hình VLM như Qwen3-VL.

Vì sao đáng chú ý

Đây là bước tiến kỹ thuật quan trọng trong việc tối ưu hóa hạ tầng phần cứng cho mô hình đa phương thức, rất hữu ích cho các kỹ sư triển khai AI.

Nội dung dịch chi tiết

Nhóm Intel và SGLang đã hiện thực hóa việc phân tách EPD không đồng nhất thông qua Dynamo và SGLang cho các mô hình ngôn ngữ thị giác (VLM). Bằng cách chuyển các tác vụ mã hóa hình ảnh sang CPU (tận dụng tài nguyên CPU sẵn có tại nút chính), hệ thống đạt được sự cải thiện hiệu suất ổn định trên các chỉ số quan trọng như TTFT (thời gian đến token đầu tiên), TPOT (thời gian mỗi token đầu ra) và thông lượng tổng thể.

Việc phân tách EPD đã được chứng minh là cần thiết để giảm TTFT trong các kịch bản xử lý nhiều hình ảnh. Vì bộ mã hóa thị giác (CNN/ViT) thường nhỏ hơn phần mô hình ngôn ngữ, các CPU hiện đại với bộ tăng tốc ma trận (như AMX trên Intel Xeon) hoàn toàn có khả năng hỗ trợ. Do quá trình mã hóa chỉ diễn ra trong giai đoạn prefill, việc tích hợp các worker không đồng nhất trở nên dễ dàng mà không cần quản lý trạng thái phức tạp giữa các worker.

Thông qua hợp tác với cộng đồng Dynamo, một bộ định tuyến có trọng số nhận biết thiết bị (device-aware weighted router) đã được tích hợp (PR #7215). Bộ định tuyến này sử dụng Tỷ lệ năng lực (Capability Ratio R) để xác định thông lượng tương đối giữa GPU và CPU, từ đó tính toán ngân sách yêu cầu cho CPU (B_cpu). Nếu số lượng yêu cầu đang xử lý trên CPU thấp hơn ngân sách cho phép, hệ thống sẽ điều hướng yêu cầu đến CPU, giúp tối ưu hóa tải cho GPU.

Kết quả thử nghiệm trên cấu hình Intel Xeon 6747P và GPU L40S cho thấy hiệu suất vượt trội so với việc chỉ sử dụng GPU. Cụ thể, TTFT và thông lượng yêu cầu cải thiện khoảng 1,2x-1,3x, trong khi TPOT giảm đáng kể từ 1,3x đến 30x nhờ giảm bớt áp lực lên hàng đợi tạo token. Giải pháp này mang lại hiệu quả đầu tư (ROI) cao hơn mà gần như không phát sinh chi phí bổ sung, nhờ vào việc tối ưu hóa toàn diện hệ thống bao gồm cả CPU hỗ trợ AMX.

Ý chính từ bài gốc

  • Phân tách EPD không đồng nhất giúp giảm tải mã hóa hình ảnh từ GPU sang CPU.
  • Sử dụng bộ định tuyến có trọng số nhận biết thiết bị để cân bằng tải thông minh giữa CPU và GPU.
  • Cải thiện 1,2x-1,3x về TTFT và thông lượng, giảm đáng kể thời gian chờ đợi TPOT.
  • Tận dụng sức mạnh của CPU Intel Xeon với bộ tăng tốc AMX để tối ưu hóa chi phí và hiệu suất.
  • Giải pháp dễ triển khai, không yêu cầu quản lý trạng thái phức tạp giữa các worker.

Bài viết được AI dịch và tổng hợp tự động từ www.lmsys.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.