Nghiên cứu · Hugging Face Daily Papers
LongTraceRL: Tối ưu hóa suy luận ngữ cảnh dài thông qua học tăng cường từ quỹ đạo tìm kiếm
LongTraceRL giải quyết thách thức về suy luận ngữ cảnh dài bằng cách sử dụng các quỹ đạo tìm kiếm phức tạp và hệ thống phần thưởng theo từng bước, giúp mô hình phân biệt thông tin nhiễu hiệu quả hơn s
Tóm tắt
LongTraceRL giải quyết thách thức về suy luận ngữ cảnh dài bằng cách sử dụng các quỹ đạo tìm kiếm phức tạp và hệ thống phần thưởng theo từng bước, giúp mô hình phân biệt thông tin nhiễu hiệu quả hơn so với các phương pháp truyền thống.
Vì sao đáng chú ý
Phương pháp tiếp cận mới trong việc huấn luyện RL cho ngữ cảnh dài, giải quyết được bài toán nhiễu thông tin vốn là điểm yếu của các LLM hiện nay.
Nội dung dịch chi tiết
Lập luận trong ngữ cảnh dài vẫn là một thách thức lớn đối với các mô hình ngôn ngữ lớn (LLM), vốn thường gặp khó khăn trong việc xác định và tích hợp thông tin quan trọng giữa khối lượng nội dung gây nhiễu khổng lồ. Mặc dù học tăng cường với phần thưởng có thể kiểm chứng (RLVR) cho thấy tiềm năng, các phương pháp hiện tại vẫn bị hạn chế bởi các yếu tố gây nhiễu dễ phân biệt và tín hiệu phần thưởng thưa thớt, chỉ dựa trên kết quả cuối cùng mà thiếu sự giám sát các bước lập luận trung gian.
Để giải quyết vấn đề này, nhóm tác giả giới thiệu LongTraceRL. Về mặt xây dựng dữ liệu, họ tạo ra các câu hỏi đa chặng thông qua việc đi bộ ngẫu nhiên trên đồ thị tri thức và tận dụng quỹ đạo của tác nhân tìm kiếm để tạo ra các "yếu tố gây nhiễu phân tầng". Các yếu tố này bao gồm tài liệu mà tác nhân đã đọc nhưng không trích dẫn (độ gây nhiễu cao) và tài liệu xuất hiện trong kết quả tìm kiếm nhưng không được mở (độ gây nhiễu thấp), tạo ra các ngữ cảnh huấn luyện thách thức hơn nhiều so với lấy mẫu ngẫu nhiên.
Về thiết kế phần thưởng, nghiên cứu đề xuất "phần thưởng Rubric" sử dụng các thực thể vàng dọc theo mỗi chuỗi lập luận làm cơ chế giám sát quá trình ở cấp độ thực thể. Phần thưởng này chỉ áp dụng cho các phản hồi có câu trả lời cuối cùng chính xác (chiến lược chỉ dùng phản hồi dương), giúp phân biệt chất lượng lập luận giữa các câu trả lời đúng và ngăn chặn tình trạng "hack" phần thưởng.
Các thử nghiệm trên ba mô hình LLM (từ 4B đến 30B tham số) qua năm bộ tiêu chuẩn đánh giá ngữ cảnh dài cho thấy LongTraceRL liên tục vượt trội so với các phương pháp cơ sở mạnh mẽ. Phương pháp này khuyến khích mô hình thực hiện lập luận toàn diện và dựa trên bằng chứng xác thực. Mã nguồn, tập dữ liệu và mô hình đã được công bố công khai để cộng đồng nghiên cứu sử dụng.
Ý chính từ bài gốc
- LongTraceRL cải thiện khả năng lập luận ngữ cảnh dài bằng cách khắc phục hạn chế của các phương pháp RLVR truyền thống.
- Sử dụng dữ liệu nhiễu phân tầng từ quỹ đạo tác nhân tìm kiếm giúp tạo ra các bài kiểm tra khó hơn so với lấy mẫu ngẫu nhiên.
- Phần thưởng Rubric cung cấp sự giám sát quá trình lập luận chi tiết ở cấp độ thực thể thay vì chỉ dựa vào kết quả cuối cùng.
- Chiến lược phần thưởng chỉ áp dụng cho phản hồi đúng giúp ngăn chặn tình trạng hack phần thưởng và nâng cao chất lượng suy luận.
- Thử nghiệm trên các mô hình 4B-30B cho thấy hiệu suất vượt trội và khả năng lập luận dựa trên bằng chứng vững chắc.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.