Nghiên cứu · TechCrunch: AI
Microsoft ra mắt khung mã nguồn mở Adaptive Spec-driven Scoring: Tạo bài kiểm tra AI bằng mô tả văn bản
Microsoft vừa phát hành khung Adaptive Spec-driven Scoring, cho phép nhà phát triển tạo nhanh các bài kiểm tra hành vi AI thông qua mô tả văn bản, giúp tối ưu hóa quy trình đánh giá và kiểm thử hồi qu
Tóm tắt
Microsoft vừa phát hành khung Adaptive Spec-driven Scoring, cho phép nhà phát triển tạo nhanh các bài kiểm tra hành vi AI thông qua mô tả văn bản, giúp tối ưu hóa quy trình đánh giá và kiểm thử hồi quy mô hình.
Vì sao đáng chú ý
Công cụ hữu ích cho kỹ sư AI trong việc chuẩn hóa quy trình đánh giá mô hình, giải quyết bài toán khó về kiểm thử hành vi AI bằng cách tiếp cận dựa trên đặc tả.
Nội dung dịch chi tiết
Ngày 2/6/2026, Microsoft đã công bố ASSERT (viết tắt của Adaptive Spec-driven Scoring for Evaluation and Regression Testing), một khung mã nguồn mở được thiết kế để hỗ trợ các nhà phát triển đánh giá hành vi của hệ thống AI trong các ứng dụng cụ thể.
ASSERT hoạt động bằng cách sử dụng AI để chuyển đổi các mô tả bằng ngôn ngữ tự nhiên về mục tiêu, chính sách hoặc hành vi dự kiến thành các bài kiểm tra chi tiết. Hệ thống sẽ tự động tạo ra các tình huống giả định, chạy thử nghiệm trên hệ thống mục tiêu và chấm điểm kết quả.
Công cụ này còn có khả năng ghi lại các lộ trình mà AI thực hiện, bao gồm cả các hành động trung gian và lệnh gọi công cụ, giúp nhà phát triển dễ dàng xác định vị trí xảy ra lỗi. Người dùng có thể tùy chỉnh các bài kiểm tra bằng cách cung cấp thêm ngữ cảnh hệ thống, công cụ và các ràng buộc cụ thể.
Ví dụ, một nhà phát triển có thể yêu cầu AI của công cụ nghiên cứu tài liệu không được gửi email ra ngoài công ty hoặc giới hạn thông tin bảo mật cho cấp quản lý. ASSERT sẽ sử dụng các quy tắc này để tạo ra các bài kiểm tra liên tục, đảm bảo hệ thống luôn tuân thủ đúng các tiêu chuẩn đã đặt ra.
Sarah Bird, Giám đốc sản phẩm AI có trách nhiệm tại Microsoft, nhấn mạnh rằng việc hiểu rõ hành vi của hệ thống AI là yếu tố then chốt để xây dựng một sản phẩm đáng tin cậy. Theo bà, ASSERT có thể được áp dụng trong suốt quá trình xây dựng, sau khi triển khai và cả trong giai đoạn giám sát liên tục.
Việc ra mắt ASSERT phản ánh xu hướng chung của ngành công nghiệp AI hiện nay, khi các nhà nghiên cứu đang tập trung mạnh mẽ hơn vào việc kiểm thử có thể lặp lại và kiểm tra hồi quy. Điều này giúp các tổ chức đo lường chính xác cách mô hình AI phản ứng trong nhiều điều kiện khác nhau.
Ý chính từ bài gốc
- Microsoft ra mắt ASSERT, khung mã nguồn mở giúp đánh giá hành vi AI thông qua mô tả bằng ngôn ngữ tự nhiên.
- Công cụ tự động chuyển đổi mục tiêu và chính sách thành các bài kiểm tra có chấm điểm và tình huống giả định.
- ASSERT ghi lại các lộ trình thực thi của AI, giúp nhà phát triển dễ dàng truy vết và xác định nguyên nhân lỗi.
- Hỗ trợ kiểm thử trong suốt vòng đời phát triển, từ giai đoạn xây dựng đến giám sát sau triển khai.
- Đáp ứng nhu cầu ngày càng cao về việc kiểm soát hành vi AI theo ngữ cảnh cụ thể của từng sản phẩm.
Bài viết được AI dịch và tổng hợp tự động từ TechCrunch. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.