Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
OpenWebRL: Khung mã nguồn mở huấn luyện AI điều khiển trình duyệt bằng học tăng cường
OpenWebRL là khung huấn luyện AI tương tác với website thông qua học tăng cường đa vòng, đạt hiệu suất vượt trội so với các mô hình cùng quy mô và tiệm cận các hệ thống đóng như OpenAI CUA.
Tóm tắt
OpenWebRL là khung huấn luyện AI tương tác với website thông qua học tăng cường đa vòng, đạt hiệu suất vượt trội so với các mô hình cùng quy mô và tiệm cận các hệ thống đóng như OpenAI CUA.
Vì sao đáng chú ý
Đây là bước tiến quan trọng trong lĩnh vực AI Agent, cung cấp giải pháp mã nguồn mở hiệu quả, có khả năng cạnh tranh với các mô hình thương mại lớn.
Nội dung dịch chi tiết
Việc xây dựng các tác nhân web thị giác có năng lực đòi hỏi khả năng suy luận dài hạn, định vị chính xác và tương tác mạnh mẽ với các trang web động. Mặc dù có nhiều tiến bộ, các hệ thống mạnh nhất hiện nay chủ yếu là độc quyền, trong khi các tác nhân mã nguồn mở vẫn phụ thuộc nhiều vào việc huấn luyện giám sát trên các tập dữ liệu tĩnh. Sự phụ thuộc này tạo ra rào cản về khả năng mở rộng do chi phí thu thập dữ liệu chất lượng cao rất đắt đỏ.
Để giải quyết vấn đề này, nhóm nghiên cứu giới thiệu OpenWebRL, một khung làm việc mở cho phép huấn luyện tác nhân web thị giác bằng học tăng cường (RL) trực tuyến đa lượt trên các trang web thực tế. Hệ thống bao gồm quy trình huấn luyện toàn diện: hạ tầng trình duyệt trực tiếp có khả năng mở rộng, khởi tạo có giám sát, quản lý ngữ cảnh đa phương thức, đánh giá thành công theo quỹ đạo và tối ưu hóa chính sách đa lượt hiệu quả.
Sử dụng khung làm việc này, nhóm đã huấn luyện OpenWebRL-4B, thiết lập trạng thái kỹ thuật mới cho các tác nhân mã nguồn mở trên các tiêu chuẩn web thực tế đầy thách thức. Chỉ với 0,4 nghìn quỹ đạo khởi tạo và 2,2 nghìn tác vụ huấn luyện RL mở, OpenWebRL-4B đạt tỷ lệ thành công 67,0% trên Online-Mind2Web và 64,0% trên DeepShop.
Kết quả này vượt trội hơn các tác nhân mã nguồn mở trước đây có quy mô tương đương hoặc lớn hơn, đồng thời duy trì khả năng cạnh tranh với các hệ thống độc quyền như OpenAI CUA và Gemini CUA. Ngoài hiệu suất vượt trội, nghiên cứu còn phân tích hệ thống các lựa chọn thiết kế then chốt giúp RL trực tuyến trở nên hiệu quả đối với tác nhân web thị giác.
Công trình này cung cấp một lộ trình thực tiễn để xây dựng các tác nhân web mở có năng lực, khả năng tái lập cao và chi phí hiệu quả. Nhóm nghiên cứu cam kết sẽ công bố dữ liệu huấn luyện, mô hình và mã nguồn để hỗ trợ các nghiên cứu trong tương lai.
Ý chính từ bài gốc
- OpenWebRL là khung làm việc mã nguồn mở cho phép huấn luyện tác nhân web thị giác bằng học tăng cường trực tuyến trên web thực tế.
- Khắc phục hạn chế của các phương pháp huấn luyện giám sát truyền thống vốn phụ thuộc vào dữ liệu tĩnh đắt đỏ và khó mở rộng.
- Mô hình OpenWebRL-4B đạt hiệu suất vượt trội trên các tiêu chuẩn Online-Mind2Web và DeepShop, cạnh tranh với các hệ thống độc quyền.
- Quy trình bao gồm hạ tầng trình duyệt trực tiếp, quản lý ngữ cảnh đa phương thức và tối ưu hóa chính sách đa lượt hiệu quả.
- Nghiên cứu cung cấp lộ trình thực tiễn để phát triển các tác nhân web có năng lực, chi phí thấp và khả năng tái lập cao.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.