Nghiên cứu · Hugging Face Daily Papers

TrOPD: Phương pháp chưng cất mô hình ngôn ngữ ổn định thông qua vùng tin cậy

TrOPD giải quyết sự mất ổn định khi chưng cất mô hình (OPD) bằng cách giới hạn việc học trong các vùng mà giáo viên đưa ra dự đoán tin cậy, giúp tối ưu hóa quá trình huấn luyện LLM hiệu quả hơn.

Điểm 85Thời gian 07:00 · 03/06/2026

Tóm tắt

Vì sao đáng chú ý

Nghiên cứu giải quyết vấn đề thực tế trong huấn luyện LLM, có đóng góp kỹ thuật rõ ràng về mặt tối ưu hóa, rất hữu ích cho cộng đồng nghiên cứu AI.

Nội dung dịch chi tiết

Chưng cất On-Policy (OPD) là kỹ thuật nền tảng trong hậu đào tạo các mô hình ngôn ngữ lớn (LLM), được ứng dụng rộng rãi trong học tập tác nhân, nâng cao đa nhiệm và nén mô hình. Tuy nhiên, quá trình huấn luyện OPD thường trở nên thiếu ổn định khi phân phối của giáo viên và học sinh có sự khác biệt lớn. Việc giáo viên giám sát các token do học sinh tạo ra có thể dẫn đến gradient chính sách không đáng tin cậy, thậm chí gây thất bại trong quá trình tối ưu hóa.

Để khắc phục, nghiên cứu này đề xuất phương pháp Trust Region On-Policy Distillation (TrOPD). TrOPD tập trung vào việc giám sát cấp độ token đáng tin cậy thông qua các chiến lược phân bổ tín dụng.

TrOPD sở hữu ba đặc điểm chính:

1. Học tập On-Policy theo vùng tin cậy: TrOPD chỉ thực hiện OPD tại các vùng mà giáo viên cung cấp sự giám sát đáng tin cậy, giúp giảm bớt khó khăn khi tối ưu hóa bộ ước lượng K1 reverse-KL trong điều kiện lệch phân phối.

2. Ước lượng ngoại lệ: Đối với các vùng ngoại lệ, phương pháp này sử dụng kỹ thuật cắt gradient, che (masking) và ước lượng forward-KL để giảm thiểu tác động tiêu cực từ sự giám sát không đáng tin cậy.

3. Hướng dẫn Off-Policy: Học sinh tiếp tục tạo văn bản từ các tiền tố của giáo viên và sử dụng forward KL để bắt chước hướng dẫn off-policy, từ đó khuyến khích khám phá on-policy hướng tới các vùng tin cậy.

Các thực nghiệm cho thấy TrOPD vượt trội hơn hẳn so với các phương pháp OPD hiện có (SoTA) như OPD, EOPD và REOPOLD trong các bài kiểm tra về suy luận toán học, tạo mã nguồn và các lĩnh vực tổng quát.

Ý chính từ bài gốc

TrOPD giải quyết sự mất ổn định trong OPD khi phân phối của giáo viên và học sinh khác biệt.
Sử dụng học tập theo vùng tin cậy để đảm bảo sự giám sát từ giáo viên luôn đáng tin cậy.
Áp dụng ước lượng ngoại lệ thông qua cắt gradient và forward-KL để giảm thiểu sai số.
Tích hợp hướng dẫn off-policy giúp học sinh khám phá các vùng dữ liệu tin cậy hiệu quả hơn.
Hiệu suất vượt trội so với các mô hình SoTA trong suy luận toán học, lập trình và lĩnh vực tổng quát.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan