Nghiên cứu · X:karminski (@karminski3)
Thử nghiệm viết văn trên mô hình nội bộ: Gemma4-31B dẫn đầu bảng xếp hạng
Thử nghiệm đánh giá khả năng viết văn của các mô hình nội bộ thông qua đóng vai, kết quả cho thấy Gemma4-31B vượt trội hơn Qwen3.6-27B khoảng 5%. Dù vậy, các mô hình này vẫn gặp khó khăn với các tác v
Thử nghiệm đánh giá khả năng viết văn của các mô hình nội bộ thông qua đóng vai, kết quả cho thấy Gemma4-31B vượt trội hơn Qwen3.6-27B khoảng 5%. Dù vậy, các mô hình này vẫn gặp khó khăn với các tác vụ độc thoại nội tâm do hạn chế về tham số.
Cung cấp cái nhìn thực tế về hiệu năng mô hình nội bộ trong tác vụ sáng tạo nội dung, hữu ích cho người dùng muốn tối ưu hóa AI cục bộ.
Nội dung dịch chi tiết
Bài kiểm tra đánh giá khả năng viết văn của các mô hình ngôn ngữ cục bộ bằng cách sử dụng các câu lệnh (prompt) tích hợp để yêu cầu mô hình thực hiện nhập vai. Sau đó, các mô hình hàng đầu (flagship) sẽ chấm điểm dựa trên nhiều lần chạy để lấy kết quả trung bình.
Kết quả cho thấy Gemma4-31B thể hiện xuất sắc nhất trong tất cả các hạng mục. Đứng ở vị trí thứ hai là Qwen3.6-27B, với khoảng cách trung bình so với vị trí dẫn đầu là khoảng 5%.
Nghiên cứu cũng chỉ ra rằng các mô hình này thường gặp khó khăn trong các tác vụ "độc thoại nội tâm". Nguyên nhân có thể xuất phát từ việc hạn chế về số lượng tham số hoặc do khung làm việc (framework) chưa hỗ trợ tốt việc cách ly đa tác nhân (multi-agent).
Bài kiểm tra này được thực hiện dựa trên ngôn ngữ tiếng Anh. Mặc dù tác giả chưa công khai mã nguồn, nhưng công cụ này đã được tích hợp vào khung nhập vai 'plottery'. Người dùng có thể kết nối API tùy chọn để tự thực hiện kiểm tra.
Ý chính từ bài gốc
- Gemma4-31B xếp hạng nhất trong bài kiểm tra khả năng viết văn của mô hình cục bộ.
- Qwen3.6-27B đứng vị trí thứ hai với chênh lệch hiệu suất trung bình khoảng 5%.
- Các mô hình hiện nay vẫn yếu trong việc xử lý tác vụ độc thoại nội tâm.
- Hạn chế về tham số và khả năng cách ly đa tác nhân có thể là nguyên nhân gây ra lỗi.
- Công cụ kiểm tra đã được tích hợp vào khung nhập vai plottery cho người dùng trải nghiệm.