Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
K-BrowseComp: Bộ tiêu chuẩn đánh giá AI duyệt web trong ngữ cảnh tiếng Hàn
K-BrowseComp là bộ benchmark gồm 400 câu hỏi kiểm tra khả năng duyệt web của AI trong tiếng Hàn. Kết quả cho thấy các mô hình hàng đầu thế giới vẫn gặp khó khăn lớn với độ chính xác dưới 46%, trong kh
Tóm tắt
K-BrowseComp là bộ benchmark gồm 400 câu hỏi kiểm tra khả năng duyệt web của AI trong tiếng Hàn. Kết quả cho thấy các mô hình hàng đầu thế giới vẫn gặp khó khăn lớn với độ chính xác dưới 46%, trong khi các mô hình nội địa Hàn Quốc đạt kết quả rất thấp.
Vì sao đáng chú ý
Đề tài nghiên cứu thực tế, phơi bày khoảng cách về khả năng xử lý ngôn ngữ địa phương của các mô hình AI lớn, rất hữu ích cho cộng đồng phát triển LLM.
Nội dung dịch chi tiết
Việc đánh giá các mô hình AI tiên tiến đang chuyển dịch từ các khả năng nền tảng như tuân thủ chỉ dẫn và suy luận sang các khả năng mang tính tác nhân (agentic) phức tạp. Tuy nhiên, các bộ tiêu chuẩn đánh giá khả năng tác nhân trong bối cảnh Hàn Quốc hiện vẫn còn rất khan hiếm.
Nhóm tác giả đã giới thiệu K-BrowseComp, một bộ tiêu chuẩn đánh giá tác nhân duyệt web dựa trên các ngữ cảnh tại Hàn Quốc, bao gồm tổng cộng 400 bài toán. Trong đó, tập hợp con K-BrowseComp-Verified gồm 300 bài toán đã được xây dựng và kiểm chứng thủ công bởi những người bản ngữ Hàn Quốc.
Kết quả thử nghiệm trên tập hợp con này cho thấy các mô hình ngôn ngữ lớn (LLM) hàng đầu như GPT-5.5, DeepSeek-V4-Pro và GLM-5.1 chỉ đạt tỷ lệ thành công từ 30,00% đến 45,67%. Đây là mức giảm đáng kể so với kết quả trên bộ tiêu chuẩn BrowseComp trước đó. Đáng chú ý, các mô hình LLM nội địa Hàn Quốc thuộc chương trình Mô hình Nền tảng AI Độc quyền chỉ đạt kết quả từ 0,00% đến 10,33%.
Ngoài ra, nhóm nghiên cứu còn xây dựng một tập hợp con gồm 100 bài toán tổng hợp (synthetic split) bằng cách sử dụng các ví dụ few-shot khó và tạo bài toán nhắm vào các chế độ lỗi, nhằm khai thác sự bất đối xứng giữa việc giải quyết và tạo ra các vấn đề duyệt web. Trên tập hợp này, mô hình mạnh nhất cũng chỉ đạt 26,00%.
Nhóm tác giả báo cáo tập hợp con tổng hợp này như một bài kiểm tra áp lực có mục tiêu. Hiện tại, dữ liệu và mã nguồn của dự án đã được công bố công khai để cộng đồng nghiên cứu cùng tham khảo.
Ý chính từ bài gốc
- Giới thiệu K-BrowseComp, bộ tiêu chuẩn gồm 400 bài toán đánh giá tác nhân duyệt web trong bối cảnh Hàn Quốc.
- Tập hợp con K-BrowseComp-Verified gồm 300 bài toán được kiểm chứng thủ công bởi người bản ngữ.
- Các mô hình LLM hàng đầu thế giới chỉ đạt tỷ lệ thành công 30,00% - 45,67% trên bộ tiêu chuẩn này.
- Các mô hình LLM nội địa Hàn Quốc đạt kết quả thấp, chỉ từ 0,00% đến 10,33%.
- Dữ liệu và mã nguồn của dự án đã được công bố công khai cho cộng đồng.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.