Nghiên cứu · X：Rohan Paul (@rohanpaul_ai)

ByteDance Seed ra mắt EdgeBench: Thước đo khả năng học tập dài hạn của AI Agent

EdgeBench đánh giá khả năng giải quyết các nhiệm vụ kéo dài từ 12-72 giờ của AI Agent thông qua 134 bài toán thực tế. Kết quả cho thấy tốc độ học tập của các mô hình hàng đầu đang tăng gấp đôi mỗi 3 t

Điểm 51Thời gian 07:39

Tóm tắt

Vì sao đáng chú ý

Đây là một bước tiến quan trọng trong việc đánh giá AI Agent ở các tác vụ dài hạn thay vì chỉ trả lời nhanh, dữ liệu thực nghiệm có giá trị cao cho cộng đồng nghiên cứu.

Nội dung dịch chi tiết

Nhóm nghiên cứu Seed của ByteDance đã chính thức ra mắt EdgeBench, một bộ tiêu chuẩn đánh giá chuyên biệt nhằm kiểm tra khả năng học tập của các tác nhân AI (AI Agent) trong các nhiệm vụ dài hạn, kéo dài từ 12 đến 72 giờ.

Bộ tiêu chuẩn này bao gồm 134 nhiệm vụ thực tế, được chia thành 6 lĩnh vực chính: khoa học, kiến thức chuyên môn, kỹ thuật phần mềm, tối ưu hóa, toán học hình thức và trò chơi. Theo thống kê, thời gian trung bình để con người hoàn thành các nhiệm vụ này là 57,2 giờ.

Trong quá trình thử nghiệm, các AI Agent sẽ làm việc trong môi trường cục bộ, thực hiện thử sai nhanh chóng và nhận phản hồi từ một hệ thống giám khảo ẩn. Sau khi chạy thử nghiệm với tổng thời gian lên tới 38.000 giờ, các nhà nghiên cứu phát hiện hiệu suất của AI tuân theo đường cong log-sigmoid dựa trên thời gian tương tác.

Kết quả nghiên cứu cũng chỉ ra rằng tốc độ học tập của các mô hình hàng đầu đang tăng gấp đôi sau mỗi 3 tháng. Hiện tại, ByteDance đã công bố mã nguồn mở cho 51 nhiệm vụ đầu tiên cùng toàn bộ khung đánh giá để phục vụ cộng đồng nghiên cứu.

Ý chính từ bài gốc

ByteDance Seed ra mắt EdgeBench để đánh giá khả năng học tập dài hạn của AI Agent (12-72 giờ).
Bộ tiêu chuẩn gồm 134 nhiệm vụ thực tế thuộc 6 lĩnh vực như khoa học, kỹ thuật phần mềm và toán học.
AI Agent thực hiện thử sai trong môi trường cục bộ và nhận phản hồi từ hệ thống giám khảo ẩn.
Hiệu suất AI tuân theo đường cong log-sigmoid, với tốc độ học tập của các mô hình hàng đầu tăng gấp đôi mỗi 3 tháng.
51 nhiệm vụ đầu tiên và khung đánh giá hoàn chỉnh đã được công bố mã nguồn mở.

Mở bài gốc