Thủ thuật · Google Developers Blog
Cộng đồng AI đã huấn luyện Gemma 'biết suy nghĩ' như thế nào với Tunix và TPU?
Thông qua cuộc thi Tunix của Google, các nhà phát triển đã chứng minh khả năng tối ưu hóa mô hình Gemma nhỏ gọn thành công cụ suy luận mạnh mẽ bằng cách kết hợp kỹ thuật SFT, GRPO và SimPO trên nền tả
Tóm tắt
Thông qua cuộc thi Tunix của Google, các nhà phát triển đã chứng minh khả năng tối ưu hóa mô hình Gemma nhỏ gọn thành công cụ suy luận mạnh mẽ bằng cách kết hợp kỹ thuật SFT, GRPO và SimPO trên nền tảng TPU.
Vì sao đáng chú ý
Bài viết cung cấp cái nhìn thực tiễn về việc tối ưu hóa mô hình ngôn ngữ lớn với tài nguyên hạn chế, rất hữu ích cho cộng đồng kỹ thuật tại Việt Nam.
Nội dung dịch chi tiết
Các mô hình ngôn ngữ lớn (LLM) hiện đại thường cần "tư duy" trước khi đưa ra câu trả lời cho các tác vụ phức tạp. Tuy nhiên, các phương pháp huấn luyện khả năng suy luận này thường không được công khai. Để giải quyết vấn đề này, Google đã tổ chức cuộc thi Tunix Hackathon trên Kaggle, khuyến khích các nhà phát triển biến các mô hình cơ sở (Gemma-2-2B và Gemma-3-1B) thành các mô hình có khả năng suy luận tổng quát bằng cách sử dụng Tunix và Kaggle TPU.
Cuộc thi đã thu hút hơn 11.000 người tham gia với hơn 300 bài dự thi chất lượng. Các đội chiến thắng đã chứng minh rằng việc huấn luyện suy luận có thể đạt kết quả tốt ngay cả với ngân sách tính toán hạn chế (Kaggle TPU v5e-8 trong 9 giờ) thông qua việc kết hợp học có giám sát (SFT), tối ưu hóa ưu tiên và học tăng cường.
Đội giành giải nhất (G-RaR) đã sử dụng hệ thống phần thưởng dựa trên tiêu chí (rubric) để đánh giá các bước suy luận trung gian trong thẻ <reasoning>. Họ sử dụng mô hình lớn hơn (Gemma-3-12B) làm giám khảo để cung cấp phản hồi liên tục cho mô hình, giúp cải thiện logic mà không cần dựa hoàn toàn vào đáp án chính xác cuối cùng.
Đội giành giải nhì (Pinocchio-1B) đã phát triển quy trình 3 giai đoạn: SFT để thiết lập nền tảng, SimPO để ép buộc định dạng XML nghiêm ngặt và GRPO để tinh chỉnh logic. Họ đã mở rộng thư viện Tunix để hỗ trợ hàm mất mát SimPO tùy chỉnh và công cụ đánh giá bất đồng bộ hiệu suất cao.
Đội giành giải ba (IDEA-E) tập trung vào việc chưng cất khung suy luận đạo đức vào mô hình 2B. Họ sử dụng phương pháp học tăng cường với hướng dẫn chương trình giảng dạy và hàm phần thưởng TF-IDF, giúp mô hình suy luận từng bước mà không bị lan man hay "ảo tưởng".
Ngoài các đội dẫn đầu, nhiều bài dự thi khác đã thể hiện sự sáng tạo trong việc huấn luyện suy luận cho các lĩnh vực chuyên biệt như y tế, hóa học, luật và robot. Các công thức huấn luyện này hiện đã được công khai, cho phép các nhà phát triển khác dễ dàng tiếp cận và xây dựng các mô hình tư duy của riêng mình bằng Tunix và TPU miễn phí.
Ý chính từ bài gốc
- Cuộc thi Tunix Hackathon chứng minh khả năng huấn luyện mô hình tư duy trên phần cứng hạn chế.
- Kết hợp SFT, GRPO và SimPO là chìa khóa để tạo ra các mô hình suy luận có cấu trúc.
- Sử dụng LLM làm giám khảo (LLM-as-a-judge) giúp cung cấp phản hồi logic chi tiết cho mô hình.
- Các kỹ thuật như TF-IDF và SimPO giúp kiểm soát định dạng và ngăn chặn hiện tượng lan man.
- Tài liệu và mã nguồn của các giải pháp đã được công khai trên GitHub để cộng đồng học hỏi.
Bài viết được AI dịch và tổng hợp tự động từ developers.googleblog.com. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.