← Quay lại dòng tin

Nghiên cứu · IT Home

Microsoft ra mắt ASSERT: Khung mã nguồn mở giúp tự động hóa đánh giá AI Agent

ASSERT là khung mã nguồn mở mới từ Microsoft giúp chuyển đổi yêu cầu bằng ngôn ngữ tự nhiên thành quy trình kiểm thử tự động, hỗ trợ đánh giá hiệu suất AI Agent một cách hệ thống và chính xác hơn.

Điểm 65Thời gian

Tóm tắt

ASSERT là khung mã nguồn mở mới từ Microsoft giúp chuyển đổi yêu cầu bằng ngôn ngữ tự nhiên thành quy trình kiểm thử tự động, hỗ trợ đánh giá hiệu suất AI Agent một cách hệ thống và chính xác hơn.

Vì sao đáng chú ý

Công cụ hữu ích cho nhà phát triển AI, giải quyết bài toán khó trong việc đánh giá hành vi của Agent. Tính ứng dụng thực tế cao và có tính hệ thống rõ ràng.

Nội dung dịch chi tiết

Microsoft chính thức công bố khung mã nguồn mở ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing - Tạm dịch: Đánh giá và kiểm thử hồi quy dựa trên đặc tả thích ứng). Mục tiêu của ASSERT là chuyển đổi trực tiếp các quy định hành vi viết bằng ngôn ngữ tự nhiên thành quy trình đánh giá có thể thực thi.

Theo Microsoft, ASSERT có khả năng tự động tạo ra các kịch bản kiểm thử, bộ dữ liệu, chỉ số đánh giá và bảng điểm từ các tài liệu như yêu cầu sản phẩm, chính sách hoặc lời nhắc hệ thống. Khung này hoạt động dựa trên nguyên tắc coi các quy định hành vi là đầu vào cốt lõi của quá trình đánh giá.

Quy trình của ASSERT được hệ thống hóa qua bốn giai đoạn: Chuyển đổi mô tả hành vi thành các khái niệm quy định cụ thể; tạo bộ kiểm thử phân tầng dựa trên các chiều dữ liệu (nhiệm vụ, vai trò, công cụ); chạy kiểm thử trên hệ thống mục tiêu để ghi lại toàn bộ quá trình; và cuối cùng là chấm điểm dựa trên các tiêu chí đã thiết lập, bao gồm cả việc đưa ra lý do và trích dẫn chính sách.

Các nghiên cứu của Microsoft cho thấy ASSERT giúp mở rộng phạm vi kiểm thử, phát hiện nhiều lỗi hơn và phân biệt rõ ràng năng lực giữa các hệ thống AI so với phương pháp tạo bộ đánh giá từ ý định thông thường. Kết quả so sánh giữa trình đánh giá LLM và con người cho thấy độ nhất quán đạt từ 80%–90%.

Microsoft lưu ý rằng ASSERT hoạt động hiệu quả nhất trong các kịch bản có định nghĩa hành vi và ràng buộc rõ ràng. Công cụ này không thay thế hoàn toàn sự đánh giá của con người hay các chuyên gia, mà đóng vai trò là phương tiện giúp quá trình đánh giá diễn ra nhanh chóng, minh bạch và dễ dàng lặp lại hơn.

Hiện tại, mã nguồn của ASSERT đã được công khai trên GitHub (github.com/responsibleai/ASSERT) cùng với các ví dụ thực tế như AI Agent lập kế hoạch du lịch.

Ý chính từ bài gốc

  • ASSERT tự động hóa việc tạo kịch bản kiểm thử từ các quy định bằng ngôn ngữ tự nhiên.
  • Khung này tập trung vào việc đưa các quy định hành vi trở thành cốt lõi của quá trình đánh giá AI.
  • Quy trình gồm 4 giai đoạn: xác định quy định, tạo bộ kiểm thử, chạy thực thi và chấm điểm chi tiết.
  • Kết quả kiểm thử giúp nhà phát triển xác định các lỗi hệ thống và cải thiện mô hình hiệu quả hơn.
  • ASSERT không thay thế con người mà hỗ trợ tăng tốc và minh bạch hóa quy trình đánh giá.

Bài viết được AI dịch và tổng hợp tự động từ www.ithome.com. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.