Nghiên cứu · The Decoder：AI News（RSS）

Viện An toàn AI Anh: Các bài kiểm tra tiêu chuẩn đang đánh giá thấp năng lực thực tế của AI Agent

Nghiên cứu từ AISI chỉ ra rằng việc giới hạn ngân sách token khiến các bài kiểm tra tiêu chuẩn đánh giá thấp khả năng của AI. Các chuyên gia đề xuất phương pháp 'ngân sách thông tin tối thiểu' để đo l

Điểm 55Thời gian 23:16

Tóm tắt

Vì sao đáng chú ý

Thông tin quan trọng cho giới kỹ thuật và nghiên cứu, làm sáng tỏ lỗ hổng trong cách đánh giá AI hiện nay và đề xuất phương pháp kiểm chuẩn thực tế hơn.

Nội dung dịch chi tiết

Một nghiên cứu mới từ Viện An toàn AI Anh (AISI) chỉ ra rằng các bài kiểm tra (benchmark) phổ biến đang đánh giá thấp khả năng của các tác nhân AI do giới hạn ngân sách tính toán. Khi được cung cấp thêm thời gian xử lý, tỷ lệ thành công của các mô hình tăng tới 25%, với những cải thiện rõ rệt trong các lĩnh vực an ninh mạng và phát triển phần mềm.

AISI đã thử nghiệm các mô hình tiên tiến trên bảy bài kiểm tra với ngân sách tính toán khác nhau. Kết quả cho thấy hiệu suất của AI là một đường cong tăng dần theo tài nguyên được cấp. Việc cắt giảm ngân sách khi đường cong này vẫn đang đi lên sẽ dẫn đến kết quả đo lường chỉ phản ánh mức tối thiểu, thay vì khả năng tối đa của hệ thống.

Trong lĩnh vực an ninh mạng, khoảng 8% tác vụ chỉ được giải quyết khi ngân sách vượt quá 10 triệu token, thậm chí một số tác vụ cần tới 50 triệu token. Đối với kỹ thuật phần mềm, tỷ lệ thành công tăng khoảng 25% khi ngân sách token tăng từ 1 triệu lên 10 triệu. Các mô hình mới nhất cho thấy sự hưởng lợi vượt trội từ việc tăng ngân sách tính toán so với các thế hệ cũ.

Nghiên cứu cũng phát hiện mối tương quan giữa thời gian một chuyên gia con người cần để hoàn thành tác vụ và lượng token AI tiêu thụ. Một tác vụ kéo dài một phút tiêu tốn hàng nghìn token, trong khi tác vụ kéo dài một giờ cần hàng triệu token. Do đó, ngân sách đánh giá cố định vô tình loại bỏ các tác vụ khó và dài hơi nhất.

Các mô hình mới không chỉ giải quyết được các tác vụ khó hơn mà còn thực hiện ổn định hơn và hiệu quả hơn. AISI nhận định rằng tốc độ tiến bộ của các mô hình tiên tiến đang nhanh hơn khoảng 60% so với các phép đo trước đây từng dự đoán. Điều này cho thấy sự tiến bộ không phải là một hằng số mà phụ thuộc vào cách chúng ta thiết lập ngân sách đánh giá.

Cuối cùng, AISI nhấn mạnh rằng nếu tiếp tục coi năng lực AI là một điểm số cố định thay vì một đường cong theo ngân sách, chúng ta sẽ liên tục bị bất ngờ trước khả năng thực sự của chúng. Viện hiện đang áp dụng phương pháp "ngân sách thông tin tối thiểu" để kiểm tra xem liệu khả năng của mô hình có còn tăng trưởng khi cấp thêm tài nguyên hay không.

Ý chính từ bài gốc

Các bài kiểm tra tiêu chuẩn hiện nay đánh giá thấp năng lực AI do giới hạn ngân sách tính toán.
Hiệu suất AI tăng tới 25% khi ngân sách token được mở rộng, đặc biệt trong lập trình và an ninh mạng.
Lượng token cần thiết cho AI tỷ lệ thuận với thời gian con người thực hiện tác vụ đó.
Các mô hình AI mới nhất hưởng lợi từ việc tăng ngân sách tính toán nhiều hơn đáng kể so với các mô hình cũ.
Tốc độ tiến bộ của AI đang nhanh hơn 60% so với các phép đo cũ khi xét đến ngân sách tính toán linh hoạt.

Mở bài gốc