Nghiên cứu · The Decoder: AI News
DiscoBench: Bộ tiêu chuẩn mới từ Tencent và Đại học Thanh Hoa đánh giá khả năng xử lý truy vấn mơ hồ của AI
DiscoBench là bộ benchmark đầu tiên đánh giá liệu các AI Agent có chủ động làm rõ thông tin khi người dùng đặt câu hỏi mơ hồ hay không. Kết quả cho thấy dù khả năng tự nhận diện còn hạn chế, nhưng hiệ
Lý do đề xuất
Nghiên cứu giải quyết đúng 'nỗi đau' của AI Agent hiện nay là thiếu khả năng tương tác ngược. Chủ đề mang tính học thuật cao, có giá trị thực tiễn cho các nhà phát triển.
Tóm tắt
DiscoBench là bộ benchmark đầu tiên đánh giá liệu các AI Agent có chủ động làm rõ thông tin khi người dùng đặt câu hỏi mơ hồ hay không. Kết quả cho thấy dù khả năng tự nhận diện còn hạn chế, nhưng hiệu suất sẽ tăng vọt lên 93,4% nếu AI được yêu cầu đặt câu hỏi làm rõ.
Bản dịch AI
Các tác nhân tìm kiếm AI (AI search agents) hiếm khi thất bại trong các tác vụ nghiên cứu đa bước chỉ vì bản thân quá trình tìm kiếm. Vấn đề thực sự của chúng là không chịu hỏi người dùng để làm rõ khi truy vấn mơ hồ. Đây là kết quả từ một bộ tiêu chuẩn đánh giá (benchmark) mới của một nhóm nghiên cứu tại Tencent Hunyuan và Đại học Thanh Hoa. Việc tìm kiếm lặp đi lặp lại thường mang lại kết quả tệ hơn cả việc đoán mò.
Với DiscoBench, các nhà nghiên cứu đã xây dựng một khung kiểm thử để kiểm tra xem các mô hình ngôn ngữ có thể tự phát hiện sự mơ hồ trong các chuỗi tìm kiếm chuyên sâu, đặt câu hỏi làm rõ có mục tiêu và điều chỉnh lộ trình nghiên cứu của chúng hay không. Các bộ tiêu chuẩn trước đây như GAIA hoặc BrowseComp đều giả định rằng truy vấn của người dùng là đầy đủ và không mơ hồ.
Tuy nhiên, các truy vấn trong thực tế thường mơ hồ, không đầy đủ hoặc hoàn toàn sai lệch. Trong các chuỗi suy luận dài, mọi sự mơ hồ không được giải quyết sẽ tích tụ và dẫn dắt tác nhân đi sai hướng. Nếu mô hình chọn sai thực thể ở một nút ban đầu, nó sẽ tiếp tục tìm kiếm với cú pháp sạch sẽ nhưng lại bỏ lỡ hoàn toàn mục tiêu thực sự.

Bốn loại mơ hồ
DiscoBench chứa 211 tác vụ với tổng cộng 463 điểm mơ hồ trên 11 lĩnh vực kiến thức, bao gồm trò chơi điện tử, thể thao, âm nhạc, phim ảnh, khoa học và chính trị. Mỗi tác vụ được chia thành nhiều điểm kiểm tra (checkpoint). Tại mỗi điểm kiểm tra, tác nhân có thể chọn giữa ba hành động: tiếp tục tìm kiếm, hỏi người dùng để làm rõ, hoặc đưa ra câu trả lời.

Các nhà nghiên cứu xác định bốn loại mơ hồ. Một mô tả có thể khớp với nhiều thực thể, áp dụng cho các khoảng thời gian hoặc phiên bản khác nhau, cho phép nhiều tiêu chí xếp hạng hoặc đánh giá hợp lệ, hoặc chứa lỗi thực tế rõ ràng. Tập dữ liệu chủ yếu được viết bằng tiếng Trung để phản ánh các mô hình tìm kiếm điển hình trên web tiếng Trung.
Khi tác nhân đặt một câu hỏi làm rõ hữu ích, một trình mô phỏng người dùng dựa trên LLM sẽ đưa ra manh mối được xác định trước để giúp thu hẹp phạm vi tìm kiếm. Tất cả các truy vấn tìm kiếm đều chạy qua công cụ tìm kiếm Tavily, và Gemini 3 Flash đóng vai trò là trình mô phỏng.

Ngay cả các mô hình lớn cũng không đạt nổi 50 phần trăm
Nhóm nghiên cứu đã thử nghiệm 11 mô hình được phát hành trong sáu tháng qua, bao gồm Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro và Hunyuan 3.0 Preview.
Nếu không có gợi ý rõ ràng về sự mơ hồ có thể xảy ra, Doubao Seed 2.0 Pro đạt độ chính xác tổng thể (end-to-end) cao nhất ở mức 43,1 phần trăm. Tiếp theo là Gemini 3.1 Pro với 40,8 phần trăm và Claude Opus 4.7 với 39,8 phần trăm. Các mô hình yếu hơn như MiniMax M2.7 và Qwen3.6 Max chỉ đạt lần lượt 16,1 và 12,3 phần trăm.

Có một khoảng cách giữa điểm số từng bước và kết quả tổng thể. Ví dụ, Claude Opus 4.7 giải quyết đúng 57 phần trăm các điểm kiểm tra nhưng chỉ đạt 39,8 phần trăm về độ chính xác tổng thể. Các bước nghiên cứu riêng lẻ hoạt động tốt, nhưng chỉ cần một sự mơ hồ không được giải quyết cũng đủ để làm sụp đổ toàn bộ chuỗi suy luận.
Một lời nhắc cảnh báo là không đủ
Các tác giả cũng đã thử nghiệm điều gì xảy ra khi lời nhắc hệ thống (system prompt) yêu cầu rõ ràng tác nhân phải chú ý đến sự mơ hồ và đặt câu hỏi làm rõ khi nghi ngờ. Chế độ "Guided" (Có hướng dẫn) này nhằm mục đích cho thấy mức trần có thể đạt được khi các mô hình không phải tự mình nhận ra rằng một câu hỏi chưa được xác định rõ ràng.
Tính trung bình trên mười mô hình, độ chính xác tổng thể tăng từ 28,6 lên 33,7 phần trăm. Chỉ số F1 về khả năng phát hiện tăng mạnh hơn nhiều, từ 45,3 lên 64,9 phần trăm. Gợi ý chủ yếu giúp các mô hình phát hiện sự mơ hồ mà không thực sự giúp chúng hoàn thành nghiên cứu thành công. Đối với Claude Opus 4.7, độ chính xác tổng thể thậm chí còn giảm nhẹ dưới lời nhắc có hướng dẫn, mặc dù tỷ lệ vượt qua các điểm kiểm tra cao hơn.
Tìm kiếm nhiều hơn còn tệ hơn cả đoán mò
Phân tích hồ sơ hành vi cho thấy những gì các tác nhân thực sự làm tại các điểm kiểm tra mơ hồ. Các mô hình tìm kiếm trước rồi mới đặt câu hỏi làm rõ ("SearchThenAsk") đạt tỷ lệ thành công trung bình 93,4 phần trăm. Việc đoán mò mà không hỏi ("DirectGuess") giảm xuống còn 56,5 phần trăm. Các mô hình tìm kiếm lặp đi lặp lại nhưng vẫn đoán thay vì hỏi ("SearchHeavyGuess") thậm chí còn tệ hơn với 51,9 phần trăm. Theo các tác giả, việc tìm kiếm lặp lại cho thấy mô hình đã phát hiện ra sự mơ hồ nhưng không bao giờ chuyển nó thành một tương tác với người dùng.
Mô hình đó cũng giải thích tại sao việc gọi công cụ nhiều hơn không dẫn đến kết quả tốt hơn. Claude Opus 4.7 tìm kiếm thường xuyên hơn hầu hết các mô hình khác nhưng vẫn xếp sau Gemini 3.1 Pro và Doubao Seed 2.0 Pro về độ chính xác. Tìm kiếm nhiều hơn cũng vô ích nếu tác nhân không bao giờ đặt đúng câu hỏi.
Phát hiện sự mơ hồ và đặt câu hỏi hay là hai kỹ năng khác nhau
Khả năng phát hiện và chất lượng câu hỏi không song hành với nhau. Qwen3.6 Max chỉ đạt chỉ số F1 phát hiện là 16 phần trăm và đặt trung bình 0,07 câu hỏi làm rõ mỗi tác vụ trong cài đặt trung tính. Tuy nhiên, khi nó đặt câu hỏi, 94,7 phần trăm các câu hỏi đó là chính xác về mặt thực tế và 89,5 phần trăm dẫn đến tiến triển. MiniMax M2.7 đặt câu hỏi thường xuyên hơn nhiều nhưng chỉ đạt tỷ lệ thực hiện theo là 60,7 đến 66,5 phần trăm.
Một tác nhân nghiên cứu hữu ích cần cả hai kỹ năng: nhận biết khi nào cần đặt câu hỏi làm rõ và đặt câu hỏi đó sao cho câu trả lời thực sự thúc đẩy quá trình tìm kiếm.

Phân tích theo loại mơ hồ, các lỗi thực tế là dễ phát hiện nhất vì chúng tạo ra sự mâu thuẫn trực tiếp trong quá trình nghiên cứu. Sự mơ hồ về thực thể và tiêu chí khó hơn vì nhiều ứng viên hợp lý hoặc các tiêu chuẩn đánh giá không rõ ràng có thể cùng tồn tại mà không có bất kỳ mâu thuẫn rõ ràng nào.
Các tác nhân AI cần các chiến lược làm rõ tốt hơn
Nếu không có quyền truy cập vào các công cụ tìm kiếm, các mô hình được thử nghiệm sẽ sụp đổ. Doubao Seed 2.0 Pro giảm từ 43,1 xuống 2,4 phần trăm, Gemini 3.1 Pro từ 40,8 xuống 19,9 phần trăm. DiscoBench không thể được giải quyết chỉ bằng kiến thức lưu trữ của mô hình. Đồng thời, các mô hình hoạt động tốt hơn nhiều khi sự mơ hồ được loại bỏ khỏi các câu hỏi, với độ chính xác tăng từ 26,8 đến 40,2 điểm tùy thuộc vào mô hình. Các tác giả kết luận rằng các tác nhân tìm kiếm trong tương lai cần các cơ chế chuyển đổi sự không chắc chắn trong tìm kiếm thành tương tác với người dùng, bên cạnh khả năng truy xuất và suy luận của chúng.
Các công trình nghiên cứu gần đây khác xác nhận rằng các tác nhân tìm kiếm hiện tại có những điểm yếu cơ bản trong cách thức nghiên cứu. Một nghiên cứu cho thấy các mô hình hàng đầu trên các bộ tiêu chuẩn như BrowseComp thường chỉ xác nhận những gì chúng đã biết. Trên bộ tiêu chuẩn LiveBrowseComp được xây dựng riêng với các dữ kiện nằm ngoài thời điểm cắt kiến thức (knowledge cutoff), tất cả các hệ thống đều giảm từ 25 đến 40 điểm. Bộ tiêu chuẩn Halluhard cũng cho thấy Claude Opus 4.5 với tính năng tìm kiếm web bị ảo giác trong khoảng 30 phần trăm các trường hợp, chủ yếu khi xác minh nội dung của các nguồn được trích dẫn.
Anthropic đã giải quyết vấn đề này trong bản cập nhật mô hình mới nhất, Claude Opus 4.8. Mô hình này được cho là sẽ gắn cờ các điểm không chắc chắn thường xuyên hơn và để lại các lỗi trong mã của chính nó mà không có chú thích ít hơn khoảng bốn lần so với phiên bản tiền nhiệm. Perplexity đang thử nghiệm một cách tiếp cận khác với "Search as Code", cho phép các mô hình viết quy trình tìm kiếm của chúng dưới dạng các chương trình Python thay vì gọi một API được xây dựng sẵn.
Tin tức AI không cường điệu – Được tuyển chọn bởi con người
Đăng ký THE DECODER để đọc không quảng cáo, nhận bản tin AI hàng tuần, báo cáo độc quyền "AI Radar" sáu lần một năm, quyền truy cập toàn bộ kho lưu trữ và quyền tham gia phần bình luận của chúng tôi.
Đăng ký ngay
Ý chính từ bài gốc
- Các tác nhân AI thất bại chủ yếu do không biết yêu cầu làm rõ các truy vấn mơ hồ thay vì do khả năng tìm kiếm.
- Việc tìm kiếm lặp đi lặp lại mà không làm rõ thường dẫn đến kết quả kém hơn cả việc đoán mò.
- Khi các mô hình đặt câu hỏi làm rõ mục tiêu, tỷ lệ thành công tăng vọt lên hơn 93%.
- Các mô hình hàng đầu hiện nay đều đạt dưới 50% độ chính xác trên bộ tiêu chuẩn DiscoBench.
- Khả năng nhận diện sự mơ hồ và kỹ năng đặt câu hỏi hiệu quả là hai kỹ năng riêng biệt cần được cải thiện.
Bài viết được AI dịch và tổng hợp tự động từ The Decoder. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.