Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

PaW: Khung huấn luyện phối hợp giữa chiến lược và mô hình thế giới cho AI Agent

Điểm 60Thời gian 22:40 · 02/06/2026

Tóm tắt

PaW tối ưu hóa hiệu suất của AI Agent bằng cách tận dụng dữ liệu từ quá trình học tăng cường (RL) để huấn luyện mô hình thế giới mà không cần thêm bộ mô phỏng. Phương pháp này giúp cải thiện độ ổn định và hiệu quả của tác nhân thông qua các cơ chế chọn lọc dữ liệu và cân bằng phần thưởng thông minh.

Vì sao đáng chú ý

Đây là một hướng tiếp cận đột phá giúp tối ưu hóa tài nguyên huấn luyện cho AI Agent, có tính ứng dụng cao trong nghiên cứu RL và mô hình thế giới.

Nội dung dịch chi tiết

Học tăng cường (RL) giúp cải thiện các tác nhân mô hình ngôn ngữ lớn (LLM) bằng cách dạy chúng những hành động nào mang lại phần thưởng cao. Tuy nhiên, phương pháp này thường thiếu sự giám sát về tác động của các hành động đó đối với môi trường. Mô hình thế giới (WM) có thể giải quyết vấn đề này, nhưng các cách tiếp cận hiện tại thường đòi hỏi trình mô phỏng riêng biệt, các giai đoạn huấn luyện bổ sung hoặc tăng khối lượng tính toán khi suy luận.

Nhóm tác giả nhận thấy rằng các lượt chạy (rollouts) trong RL theo chính sách (on-policy) vốn đã chứa đựng tín hiệu cần thiết: mỗi bước chuyển đổi đều ghép nối một hành động với quan sát kết quả tiếp theo. Dựa trên quan sát này, họ đề xuất PaW, một khung huấn luyện đồng thời Chính sách và Mô hình thế giới.

PaW bổ sung sự giám sát WM phụ trợ vào cùng một chính sách trong quá trình RL mà không làm thay đổi mô hình suy luận. Để đảm bảo sự giám sát WM ổn định và hiệu quả, PaW giới thiệu ba thành phần chính: lựa chọn dữ liệu WM dựa trên entropy hành động, hàm mất mát chịu lỗi nhiễu và cơ chế cân bằng hàm mất mát thích ứng với phần thưởng.

Các thử nghiệm trên ba bộ tiêu chuẩn tác vụ tác nhân cho thấy sự cải thiện nhất quán so với các phương pháp RL mạnh hiện nay trên nhiều mô hình và thuật toán khác nhau. Những kết quả này cho thấy các lượt chạy RL tiêu chuẩn là nguồn dữ liệu thực tế và hiệu quả để giám sát WM trong quá trình huấn luyện tác nhân ngôn ngữ.

Ý chính từ bài gốc

RL giúp tác nhân tối ưu phần thưởng nhưng thiếu sự hiểu biết về môi trường.
PaW tận dụng dữ liệu từ các lượt chạy RL sẵn có để huấn luyện mô hình thế giới.
Phương pháp này không yêu cầu thay đổi quy trình suy luận của mô hình.
Ba thành phần kỹ thuật giúp tối ưu hóa sự ổn định và hiệu quả của mô hình.
Kết quả thực nghiệm chứng minh hiệu suất vượt trội trên các tác vụ tác nhân.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan