Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

SWE-Together: Đánh giá tác nhân lập trình thông qua tương tác thực tế

SWE-Together là bộ tiêu chuẩn đánh giá mới dựa trên 109 tác vụ thực tế, sử dụng trình mô phỏng người dùng để kiểm tra khả năng lập trình đa vòng và phản hồi của các tác nhân AI thay vì chỉ dựa vào kết

Điểm 48Thời gian 00:27 · 29/06/2026

Tóm tắt

Vì sao đáng chú ý

Đề tài giải quyết điểm yếu của các bộ benchmark cũ bằng cách tập trung vào tương tác thực tế, rất quan trọng cho sự phát triển của AI lập trình chuyên nghiệp.

Nội dung dịch chi tiết

Hầu hết các bộ tiêu chuẩn đánh giá tác nhân lập trình hiện nay đều mang tính tĩnh: tác nhân nhận toàn bộ mô tả nhiệm vụ ngay từ đầu và chỉ được đánh giá dựa trên mã nguồn cuối cùng. Tuy nhiên, quá trình hỗ trợ lập trình thực tế mang tính tương tác cao, nơi người dùng liên tục làm rõ mục tiêu, bổ sung ràng buộc và sửa lỗi qua nhiều lượt trao đổi.

Để giải quyết hạn chế này, nhóm nghiên cứu giới thiệu SWE-Together, một bộ tiêu chuẩn đa vòng được tái cấu trúc từ các phiên làm việc thực tế giữa người dùng và tác nhân lập trình. Để đảm bảo tính xác thực, nhóm đã chọn lọc 109 nhiệm vụ cấp kho lưu trữ từ 11.260 phiên ghi lại, ưu tiên các phiên có trạng thái kho lưu trữ có thể khôi phục, mục tiêu rõ ràng và kết quả quan sát được.

Nhóm đã xây dựng một trình mô phỏng người dùng phản ứng dựa trên mô hình ngôn ngữ lớn (LLM) để tái hiện các tương tác này. Trình mô phỏng này giúp bảo toàn ý định của người dùng gốc và cung cấp phản hồi khi tiến trình của tác nhân lập trình yêu cầu.

Việc đánh giá tác nhân với tư cách là cộng sự được thực hiện bằng cách đo lường độ chính xác của kho lưu trữ cuối cùng và số lượt phản hồi điều chỉnh cần thiết trong quá trình tương tác. Các thử nghiệm với những tác nhân lập trình tiên tiến cho thấy, những tác nhân mạnh hơn thường đạt tỷ lệ thành công cao hơn và cần ít sự can thiệp hơn, từ đó cải thiện trải nghiệm người dùng.

Ý chính từ bài gốc

SWE-Together là bộ tiêu chuẩn đánh giá tác nhân lập trình dựa trên các phiên tương tác thực tế thay vì các nhiệm vụ tĩnh.
Dữ liệu được chọn lọc từ 109 nhiệm vụ cấp kho lưu trữ từ 11.260 phiên làm việc thực tế.
Sử dụng trình mô phỏng người dùng dựa trên LLM để tái hiện ý định và phản hồi của người dùng trong quá trình lập trình.
Đánh giá hiệu suất dựa trên độ chính xác của mã nguồn cuối cùng và số lần cần phản hồi điều chỉnh.
Kết quả cho thấy tác nhân mạnh hơn giúp giảm thiểu sự can thiệp của người dùng và nâng cao trải nghiệm tổng thể.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan