Nghiên cứu · Hugging Face Daily Papers

OmniOPD: Phương pháp chưng cất mô hình On-Policy không cần Logit thông qua xác thực suy đoán

OmniOPD là khung làm việc mới giúp chưng cất mô hình mà không cần truy cập logit từ giáo viên, thay thế bằng cơ chế giám sát theo khối để khắc phục hạn chế của các phương pháp truyền thống.

Điểm 85Thời gian 07:00 · 03/06/2026

Tóm tắt

Vì sao đáng chú ý

Nghiên cứu giải quyết bài toán thực tế trong việc huấn luyện mô hình nhỏ từ mô hình lớn mà không bị phụ thuộc vào quyền truy cập logit, có tính ứng dụng cao trong tối ưu hóa LLM.

Nội dung dịch chi tiết

Chưng cất chính sách trực tuyến (OPD) huấn luyện mô hình học viên dựa trên các quỹ đạo tạo sinh của chính nó, sử dụng phản hồi ở cấp độ token từ một giáo viên mạnh hơn. Phương pháp này giúp giảm thiểu sự lệch phân phối của SFT và vấn đề phân bổ tín dụng thưa thớt trong học tăng cường (RL).

Tuy nhiên, OPD tiêu chuẩn gặp hai hạn chế lớn. Thứ nhất, nó yêu cầu quyền truy cập trực tiếp vào logit cấp token của giáo viên, khiến các mô hình độc quyền không thể tham gia. Thứ hai, tín hiệu logit cấp token rất mong manh, phụ thuộc vào sự trùng lặp giữa các token tiếp theo của giáo viên và học viên, dễ dẫn đến các lỗi lặp lại.

OmniOPD giải quyết các vấn đề này bằng cách sử dụng tín hiệu giám sát cấp khối (chunk-level) không cần logit. Thay vì khớp logit xác định, OmniOPD sử dụng các lượt chạy Monte Carlo để xấp xỉ sở thích của giáo viên thông qua thước đo tương đồng ngữ nghĩa trên các khối đa token.

Khung làm việc này tập trung giám sát thông qua bộ lập lịch entropy đỉnh, chỉ kiểm tra học viên tại các điểm rẽ nhánh suy luận có độ bất định cao. Ngoài ra, các kỹ thuật như tiền nghiệm Bayes Dirichlet-Multinomial và neo KL mô hình cơ sở giúp kiểm soát phương sai lấy mẫu và ngăn chặn sự sụp đổ chính sách.

Kết quả thực nghiệm cho thấy OmniOPD vượt trội hơn OPD tiêu chuẩn tới 28,64% trong các bài toán toán học. Việc xác thực ngữ nghĩa theo khối cung cấp tín hiệu học tập đáng tin cậy hơn so với khớp logit cấp token vốn chứa nhiều nhiễu.

Khi kết hợp với các mô hình giáo viên hộp đen mạnh mẽ như Claude-4.5-Haiku và Gemini-2.5-Flash, OmniOPD đạt hiệu suất cao hơn 9,54% so với các mô hình giáo viên mã nguồn mở, vượt qua cả hiệu suất của các phương pháp RL tự khám phá.

Ý chính từ bài gốc

OmniOPD loại bỏ yêu cầu truy cập logit, cho phép sử dụng các mô hình độc quyền làm giáo viên.
Sử dụng giám sát cấp khối (chunk-level) thay vì cấp token giúp tăng độ ổn định và giảm nhiễu.
Bộ lập lịch entropy đỉnh giúp tập trung kiểm tra tại các điểm rẽ nhánh suy luận quan trọng.
Cải thiện hiệu suất tới 28,64% trong các bài toán toán học so với OPD truyền thống.
Đạt kết quả vượt trội khi kết hợp với các mô hình giáo viên mạnh như Claude-4.5-Haiku và Gemini-2.5-Flash.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan