Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

OSWorld 2.0: Bộ tiêu chuẩn đánh giá AI thực hiện tác vụ máy tính dài hạn

OSWorld 2.0 ra mắt với 108 quy trình làm việc phức tạp, cho thấy các mô hình AI hiện nay vẫn gặp khó khăn lớn trong việc duy trì logic và xử lý trạng thái ẩn khi thực hiện các tác vụ chuyên nghiệp kéo

Điểm 82Thời gian 07:00 · 28/06/2026

Tóm tắt

Vì sao đáng chú ý

Đây là bước tiến quan trọng trong việc đo lường khả năng thực tế của AI Agent, phơi bày khoảng cách lớn giữa năng lực hiện tại và nhu cầu sử dụng chuyên nghiệp.

Nội dung dịch chi tiết

Các bộ tiêu chuẩn đánh giá khả năng sử dụng máy tính hiện nay thường thiếu tính thực tế, độ phức tạp và không phản ánh được nhu cầu của các tác vụ dài hạn. Điều này hạn chế khả năng nhận diện những giới hạn thực sự của các tác nhân AI (agent) thế hệ mới.

Nhóm nghiên cứu đã giới thiệu OSWorld 2.0, bao gồm 108 quy trình làm việc từ đời sống hàng ngày đến công việc chuyên môn. Mỗi tác vụ là một quy trình thực tế, đòi hỏi con người trung bình mất khoảng 1,6 giờ để hoàn thành và yêu cầu trung bình 318 lần gọi công cụ (tool calls) với Claude Opus 4.7, cao hơn nhiều so với con số 30 ở phiên bản OSWorld 1.0.

OSWorld 2.0 tập trung vào các thách thức phổ biến trong quy trình làm việc thực tế nhưng chưa được chú trọng trước đây. Các thách thức này bao gồm tương tác thiết kế như luồng dữ liệu trực tuyến, môi trường động, cũng như các kỹ năng suy luận chéo nguồn, suy luận trạng thái ẩn và độ chính xác về thị giác - không gian.

Kết quả thử nghiệm cho thấy ngay cả những mô hình mạnh nhất như Claude Opus 4.8 cũng chỉ hoàn thành trọn vẹn 20,6% tác vụ, trong khi GPT-5.5 đạt mức 13%. Các tác nhân AI hiện nay thường mất dấu các ràng buộc, bỏ lỡ thông tin phát sinh giữa chừng, tự suy đoán thay vì hỏi người dùng và bỏ qua bước xác minh.

Nghiên cứu khẳng định các tác nhân AI hiện tại vẫn còn khoảng cách lớn so với trình độ sử dụng máy tính chuyên nghiệp. Khó khăn lớn nhất của chúng nằm ở việc xử lý các trạng thái ẩn mà hệ thống cần tự khôi phục trong quá trình thực hiện tác vụ.

Ý chính từ bài gốc

OSWorld 2.0 cung cấp 108 quy trình làm việc thực tế, phức tạp và dài hạn để đánh giá khả năng sử dụng máy tính của AI.
Mỗi tác vụ yêu cầu trung bình 318 lần gọi công cụ, phản ánh độ khó cao hơn gấp 10 lần so với phiên bản tiền nhiệm.
Các mô hình AI hàng đầu như Claude Opus 4.8 và GPT-5.5 vẫn chưa đạt hiệu suất cao, với tỷ lệ hoàn thành tác vụ rất thấp.
AI thường gặp lỗi khi xử lý thông tin phát sinh, bỏ qua bước xác minh và mất dấu các ràng buộc trong quá trình thực hiện tác vụ.
Nghiên cứu chỉ ra rằng các tác nhân AI hiện nay vẫn chưa đạt đến trình độ sử dụng máy tính chuyên nghiệp.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan