Nghiên cứu · MarkTechPost

Trajectory ra mắt giải pháp huấn luyện đa LoRA đồng thời, tăng tốc độ thực nghiệm RL lên 2,81 lần

Trajectory phối hợp cùng UC Berkeley Sky Lab phát triển hệ thống huấn luyện đa LoRA đồng thời cho học tăng cường, giúp tăng 2,81 lần hiệu suất thực nghiệm mà không làm giảm chất lượng mô hình. Mã nguồ

Điểm 60Thời gian 09:19 · 31/05/2026

Tóm tắt

Vì sao đáng chú ý

Đây là bước tiến kỹ thuật quan trọng trong tối ưu hóa huấn luyện mô hình, đặc biệt hữu ích cho các kỹ sư AI đang làm việc với học tăng cường và tinh chỉnh LoRA quy mô lớn.

Nội dung dịch chi tiết

Trajectory đã giới thiệu một ngăn xếp huấn luyện học tăng cường (RL) sử dụng Multi-LoRA đồng thời, được thiết kế để hỗ trợ học tập liên tục (continual learning). Dự án này được thực hiện với sự hợp tác của UC Berkeley Sky Lab và Anyscale, với toàn bộ mã nguồn hiện đã có sẵn trên kho lưu trữ GitHub NovaSky-AI/SkyRL.

Trong các mô hình ngôn ngữ truyền thống, việc cập nhật thường diễn ra theo chu kỳ rời rạc, tốn nhiều tháng và tiềm ẩn rủi ro về hiệu suất. Trajectory hướng tới việc thay thế quy trình này bằng học tập liên tục, nơi các tương tác thực tế trở thành dữ liệu huấn luyện. Cách tiếp cận này, được gọi là Continuous Multi-LoRA Training (C-LoRA), cho phép mỗi thử nghiệm ánh xạ tới một bộ điều hợp (adapter) LoRA chuyên dụng trên một hệ thống đa nhiệm luôn sẵn sàng.

Kiến trúc này giải quyết bốn điểm yếu của các hệ thống RL truyền thống: thời gian khởi động chậm, yêu cầu bộ nhớ lớn, hạn chế của mô hình đơn nhiệm và hiệu suất sử dụng tài nguyên thấp. Bằng cách sử dụng nhân giải mã SGMV trong vLLM, hệ thống có thể kết hợp các tác vụ từ nhiều adapter khác nhau trong cùng một bước giải mã, giúp tăng đáng kể thông lượng suy luận.

Kết quả thử nghiệm trên một nút H200 với mô hình Qwen3-4B-Instruct-2507 cho thấy mức tăng thông lượng 2,81 lần khi chạy 8 thử nghiệm đồng thời. Mặc dù độ trễ mỗi bước tăng lên khi số lượng thử nghiệm (N) tăng, nhưng hiệu quả tổng thể vẫn vượt trội so với việc chạy tuần tự. Các thử nghiệm trên mô hình MoE lớn hơn như NVIDIA-Nemotron-3-Nano-30B cũng cho thấy kết quả khả quan với tốc độ nhanh hơn 1,28 lần ở mức N=2.

Tuy nhiên, hệ thống vẫn tồn tại một số hạn chế: quá trình huấn luyện thực tế vẫn được tuần tự hóa giữa các người dùng (chỉ có suy luận là được đa nhiệm), độ trễ mỗi bước tăng theo quy mô N, và yêu cầu phần cứng cao (nút 8× H100/H200). Dù vậy, đây là một bước tiến quan trọng trong việc hiện thực hóa các hệ thống học tập liên tục hiệu quả hơn.

Ý chính từ bài gốc

Trajectory ra mắt ngăn xếp huấn luyện Multi-LoRA đồng thời, tăng 2,81 lần thông lượng thử nghiệm.
Mã nguồn mở hoàn toàn tại kho lưu trữ NovaSky-AI/SkyRL trên GitHub.
Sử dụng nhân giải mã SGMV để tối ưu hóa suy luận đa nhiệm, giúp tăng hiệu suất đáng kể.
Hệ thống cho phép học tập liên tục từ dữ liệu thực tế mà không làm giảm độ chính xác của mô hình.
Đánh đổi bằng việc tăng độ trễ mỗi bước khi số lượng thử nghiệm đồng thời tăng lên.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ MarkTechPost. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan