Nghiên cứu · LMSYS: Blog (Chatbot Arena )
Miles: Giải pháp TITO giúp đồng bộ hóa Token trong huấn luyện và suy luận cho AI Agent
Khung Miles giới thiệu nguyên tắc Token-In-Token-Out (TITO) nhằm loại bỏ sự sai lệch giữa quá trình huấn luyện và suy luận, giúp tối ưu hóa hiệu suất cho các tác vụ đa vòng như SWE-Bench.
Tóm tắt
Khung Miles giới thiệu nguyên tắc Token-In-Token-Out (TITO) nhằm loại bỏ sự sai lệch giữa quá trình huấn luyện và suy luận, giúp tối ưu hóa hiệu suất cho các tác vụ đa vòng như SWE-Bench.
Vì sao đáng chú ý
Đây là nghiên cứu quan trọng từ đội ngũ Chatbot Arena, giải quyết vấn đề kỹ thuật cốt lõi trong huấn luyện Agent, có tính ứng dụng cao cho các nhà phát triển mô hình.
Nội dung dịch chi tiết
Trong học tăng cường cho tác nhân (agentic RL), một quá trình thực thi không chỉ là một lần tạo văn bản đơn lẻ, mà là một chuỗi các lệnh gọi mô hình, kết quả từ công cụ và các thế hệ tiếp nối. Nguyên lý TITO đảm bảo rằng trình huấn luyện đánh giá chính xác chuỗi token mà công cụ suy luận đã tiêu thụ và tạo ra. Nếu nguyên lý này bị vi phạm, sự khác biệt trong phân phối điều kiện có thể dẫn đến các cập nhật sai lệch, gây mất ổn định cho quá trình huấn luyện.
Nguyên lý TITO được thỏa mãn nếu chuỗi token của lượt (n-1) là tiền tố hoàn hảo của chuỗi token trong lượt (n). Việc áp dụng cách tiếp cận "Một mẫu cho mỗi tác vụ" (thay vì mỗi lượt) giúp giảm đáng kể chi phí tính toán, làm cho TITO trở nên thiết yếu để mở rộng quy mô huấn luyện RL.
Tuy nhiên, TITO rất dễ bị phá vỡ. Thứ nhất, việc giải mã (detokenize) rồi mã hóa lại (retokenize) có thể làm mất đi các chuỗi token gốc do tính chất bất đối xứng của tokenizer. Thứ hai, các mẫu chat (chat templates) có thể tự động cắt bỏ suy luận lịch sử khi có tin nhắn mới từ người dùng, làm mất đi ngữ cảnh thực tế mà mô hình đã sử dụng. Thứ ba, việc kết xuất lại các tin nhắn ở cấp độ chuỗi có thể làm thay đổi định dạng (như khoảng trắng), dẫn đến các ID token khác nhau dù nội dung ngữ nghĩa không đổi.
Để khắc phục, Miles triển khai TITO thông qua máy chủ phiên suy luận, duy trì bộ đệm token tăng dần cho mỗi tác vụ. Miles thực thi tính chất "chỉ thêm vào" (append-only) ở ba cấp độ: danh sách tin nhắn, kết xuất mẫu chat và chuỗi token. Bằng cách sử dụng các mẫu Jinja cố định để ngăn chặn việc cắt tỉa suy luận và tránh việc mã hóa lại toàn bộ, Miles đảm bảo tính nhất quán tuyệt đối.
Cuối cùng, tokenizer TITO có thể cắm vào hệ thống giúp thực hiện việc mã hóa gia tăng. Thay vì mã hóa lại toàn bộ, hệ thống chỉ mã hóa các tin nhắn mới được thêm vào, đảm bảo rằng mọi token mới đều khớp hoàn hảo với tiền tố hiện có, từ đó duy trì tính ổn định và chính xác cho mô hình trong suốt quá trình huấn luyện.
Ý chính từ bài gốc
- TITO đảm bảo chuỗi token huấn luyện khớp hoàn hảo với chuỗi token suy luận.
- Vi phạm TITO gây sai lệch phân phối điều kiện, làm mất ổn định huấn luyện RL.
- Giải mã/mã hóa lại và các mẫu chat động là nguyên nhân chính gây lỗi TITO.
- Miles thực thi TITO bằng cách duy trì bộ đệm token tăng dần, không ghi đè.
- Cách tiếp cận 'Một mẫu cho mỗi tác vụ' giúp tối ưu hóa chi phí tính toán.
Bài viết được AI dịch và tổng hợp tự động từ www.lmsys.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.