Nghiên cứu · Hugging Face Daily Papers
Từ tấn công Prompt Injection đến kiểm soát dai dẳng: Bảo vệ AI Agent khỏi mã độc Trojan
Nghiên cứu giới thiệu ClawTrojan, bộ tiêu chuẩn đánh giá lỗ hổng bảo mật khi AI Agent vô tình lưu trữ và thực thi các lệnh độc hại ẩn trong tệp tin, tạo ra nguy cơ kiểm soát hệ thống lâu dài.
Tóm tắt
Nghiên cứu giới thiệu ClawTrojan, bộ tiêu chuẩn đánh giá lỗ hổng bảo mật khi AI Agent vô tình lưu trữ và thực thi các lệnh độc hại ẩn trong tệp tin, tạo ra nguy cơ kiểm soát hệ thống lâu dài.
Vì sao đáng chú ý
Chủ đề bảo mật cho AI Agent đang là mối quan tâm hàng đầu. Bài báo cung cấp góc nhìn mới về các cuộc tấn công đa bước mà các hệ thống phòng thủ hiện tại thường bỏ lỡ.
Nội dung dịch chi tiết
Các tác nhân LLM (LLM agents) đang dần chuyển đổi từ chatbot trò chuyện đơn thuần sang các công cụ vận hành trong môi trường làm việc thực tế. Trong các hệ thống tác nhân cục bộ, LLM có khả năng đọc và ghi tệp, gọi công cụ và duy trì trạng thái làm việc qua nhiều phiên. Mặc dù các tính năng này nâng cao hiệu suất, chúng cũng mở ra một bề mặt tấn công mới.
Kẻ tấn công có thể nhúng các lệnh prompt injection vào tệp tin hoặc kết quả đầu ra của công cụ. Tác nhân có thể đọc, lưu trữ và thực thi các hướng dẫn ẩn này sau đó. Trong mô hình tấn công Trojan đa bước này, mỗi bước riêng lẻ có vẻ vô hại, nhưng khi kết hợp lại, chúng có thể biến văn bản không đáng tin cậy thành nội dung kiểm soát bền vững.
Các biện pháp phòng thủ hiện tại thường kiểm tra từng bước một cách riêng biệt. Kết quả là, chúng có thể chặn được các hành động gây hại rõ ràng nhưng lại thất bại trong việc phát hiện các thao tác ghi tệp ban đầu dùng để cài cắm cửa sau (backdoor).
Để làm rõ mối đe dọa này, nhóm nghiên cứu đã giới thiệu ClawTrojan, một bộ tiêu chuẩn đánh giá được thiết kế để xác định các cuộc tấn công Trojan đa bước trong môi trường tác nhân cục bộ. Trong môi trường mô phỏng OpenClaw với GPT-5.4, ClawTrojan đạt tỷ lệ tấn công thành công (ASR) lên tới 95,5%, trong khi các cuộc tấn công prompt injection đơn lẻ gần như không đạt được kết quả nào.
Để giải quyết vấn đề này, các tác giả đề xuất DASGuard. Hệ thống này quét các văn bản có tính chất điều khiển trong các tệp cục bộ nhạy cảm, truy xuất nguồn gốc của chúng và loại bỏ các nội dung điều khiển không xuất phát từ nguồn tin cậy.
Kết quả thực nghiệm cho thấy DASGuard đạt được khả năng phòng thủ động mạnh mẽ bằng cách kết hợp việc chặn tấn công trong thời gian thực với việc làm sạch dữ liệu trước khi lưu vào không gian làm việc.
Ý chính từ bài gốc
- Tác nhân LLM đối mặt với rủi ro bảo mật mới từ các cuộc tấn công Trojan đa bước thông qua tệp tin và công cụ.
- Các biện pháp phòng thủ hiện nay thường kiểm tra riêng lẻ từng bước, dẫn đến việc bỏ lọt các hành vi cài cắm cửa sau.
- ClawTrojan là bộ tiêu chuẩn đánh giá mới, đạt tỷ lệ tấn công thành công 95,5% trên mô hình GPT-5.4.
- DASGuard cung cấp giải pháp phòng thủ động bằng cách truy xuất nguồn gốc và làm sạch dữ liệu điều khiển từ các nguồn không tin cậy.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.