Tin ngành · Anthropic：Newsroom（Web）

Anthropic ra mắt bộ phân loại an ninh mạng và khung đánh giá mức độ nghiêm trọng khi bẻ khóa AI

Anthropic công bố hệ thống phân loại an ninh mạng cho Claude Fable 5 và hợp tác với Glasswing xây dựng khung đánh giá rủi ro khi bẻ khóa AI, nhằm kiểm soát chặt chẽ các hành vi lạm dụng mô hình.

Điểm 64Thời gian 07:19

Tóm tắt

Vì sao đáng chú ý

Thông tin quan trọng về bảo mật AI từ một đơn vị đầu ngành, có giá trị thực tiễn cao cho cộng đồng phát triển và người dùng chuyên nghiệp.

Nội dung dịch chi tiết

Claude Fable 5 đã được triển khai toàn cầu. Anthropic tận dụng cơ hội này để chia sẻ thông tin về các bộ phân loại an toàn (safety classifiers) nhằm phát hiện và chặn các hành vi sử dụng AI vào mục đích gây hại. Đồng thời, công ty giới thiệu bản dự thảo khung đánh giá mức độ nghiêm trọng của các cuộc tấn công jailbreak, vốn là những cách thức tinh vi nhằm vượt qua rào cản an toàn của mô hình.

Các biện pháp bảo mật mạng của Fable 5 tập trung vào tính chất "lưỡng dụng" (dual use) của công nghệ. Anthropic phân loại các hoạt động mạng thành 4 nhóm: Sử dụng bị cấm, Sử dụng lưỡng dụng rủi ro cao, Sử dụng lưỡng dụng rủi ro thấp và Sử dụng lành tính. Các bộ phân loại sẽ chặn các hành vi thuộc nhóm bị cấm và rủi ro cao, đồng thời giám sát hoặc cho phép các hoạt động lành tính.

Để đảm bảo an toàn, Anthropic áp dụng "biên độ an toàn" (safety margin) lớn hơn so với các mô hình trước đây. Điều này đồng nghĩa với việc mô hình sẽ chặn các yêu cầu nếu không chắc chắn về tính an toàn, chấp nhận tỷ lệ dương tính giả cao hơn để đổi lấy sự an tâm về việc ngăn chặn các kết quả gây hại.

Nhóm "Sử dụng bị cấm" bao gồm các hành vi như phát triển mã độc, tấn công hạ tầng internet, hoặc phá hoại hệ thống vật lý. Đây là những hành vi có ít giá trị phòng thủ nhưng gây hại rất lớn. Ngược lại, nhóm "Sử dụng lưỡng dụng rủi ro cao" bao gồm các hoạt động như kiểm thử xâm nhập (pentest) hoặc tìm kiếm lỗ hổng bảo mật phức tạp. Hiện tại, Fable 5 sẽ chặn các hoạt động này cho đến khi có cơ chế kiểm soát tốt hơn.

Anthropic cũng khuyến khích cộng đồng đóng góp ý kiến về khung đánh giá jailbreak thông qua email và chương trình HackerOne. Công ty hy vọng việc hợp tác với các đối tác, chính phủ và giới học thuật sẽ giúp thiết lập một tiêu chuẩn chung, cho phép sử dụng AI cho mục đích phòng thủ mà vẫn ngăn chặn được các hành vi lạm dụng nguy hiểm.

Ý chính từ bài gốc

Claude Fable 5 áp dụng hệ thống phân loại 4 cấp độ để kiểm soát các yêu cầu liên quan đến an ninh mạng.
Thiết lập 'biên độ an toàn' lớn hơn giúp mô hình chặn các yêu cầu có nguy cơ gây hại cao, dù có thể gây ra một số dương tính giả.
Các hành vi như phát triển mã độc và tấn công hạ tầng bị cấm hoàn toàn do tính chất gây hại vượt trội.
Anthropic đang xây dựng khung đánh giá mức độ nghiêm trọng của jailbreak để chuẩn hóa cách trao đổi rủi ro với chính phủ và ngành.
Người dùng có thể báo cáo các lỗ hổng jailbreak tiềm ẩn thông qua chương trình HackerOne của Anthropic.

Mở bài gốc