Nghiên cứu · :
Qwen-VLA: Bước tiến mới hướng tới trí tuệ nhân tạo hiện thân đa năng
Phòng thí nghiệm Tongyi ra mắt Qwen-VLA, một khung hành động thống nhất giúp chuyển đổi các hệ thống AI hiện thân từ những chuyên gia kỹ năng đơn lẻ thành những tác nhân đa năng có khả năng xử lý đa d
Tóm tắt
Phòng thí nghiệm Tongyi ra mắt Qwen-VLA, một khung hành động thống nhất giúp chuyển đổi các hệ thống AI hiện thân từ những chuyên gia kỹ năng đơn lẻ thành những tác nhân đa năng có khả năng xử lý đa dạng tình huống thực tế.
Vì sao đáng chú ý
Đây là bước tiến quan trọng trong lĩnh vực AI hiện thân (Embodied AI), kết nối mô hình ngôn ngữ lớn với khả năng điều khiển robot, rất đáng chú ý cho cộng đồng công nghệ.
Nội dung dịch chi tiết
Trong nghiên cứu trí tuệ nhân tạo hiện thân (embodied AI) hiện nay, các khả năng như vận hành, điều hướng và dự đoán quỹ đạo thường bị chia tách thành các mô hình riêng biệt. Điều này khiến robot thiếu tính linh hoạt khi thay đổi môi trường hoặc thiết bị. Qwen-VLA ra đời để giải quyết vấn đề này bằng cách tích hợp các khả năng trên vào một 'bộ não' duy nhất, tương tự như cách các mô hình ngôn ngữ lớn xử lý đa dạng tác vụ văn bản.
Qwen-VLA sử dụng Qwen3.5-4B làm nền tảng, kết hợp với bộ giải mã hành động DiT (Diffusion Transformer) 1.15 tỷ tham số. Điểm đột phá nằm ở việc sử dụng các đoạn văn bản cấu trúc làm giao diện đặc thù cho từng nền tảng phần cứng. Thay vì tùy chỉnh mô hình cho từng loại robot, hệ thống mã hóa các thông số như số lượng cánh tay, tần suất điều khiển và cấu trúc robot vào câu lệnh, giúp mô hình thích nghi linh hoạt mà không cần thay đổi kiến trúc.
Quy trình huấn luyện của Qwen-VLA bao gồm bốn giai đoạn chính: Tiền huấn luyện văn bản-hành động (T2A) để dạy mô hình hiểu các kiểu hành động; Tiền huấn luyện liên tục (CPT) để kết nối hành động với nhận thức thị giác; Tinh chỉnh có giám sát (SFT) trên dữ liệu mô phỏng và thực tế; và cuối cùng là Học tăng cường (RL) để tối ưu hóa tỷ lệ thành công.
Kết quả thực nghiệm cho thấy Qwen-VLA vượt trội hơn các mô hình chuyên biệt trong nhiều bài kiểm tra. Đặc biệt, mô hình thể hiện khả năng tổng quát hóa vượt bậc trong các tình huống chưa từng gặp (OOD), đạt tỷ lệ thành công 76.9% trên các tác vụ thực tế. Khả năng này chứng minh rằng việc thống nhất các tác vụ vận hành, điều hướng và dự đoán quỹ đạo dưới một khung hành động chung là hoàn toàn khả thi và hiệu quả.
Qwen-VLA không chỉ là một bước tiến về kỹ thuật mà còn là minh chứng cho giả thuyết rằng các tác vụ robot khác nhau thực chất là các biến thể của cùng một bài toán dự đoán hành động có điều kiện. Đây là bước tiến quan trọng đưa lĩnh vực robot tiến gần hơn đến mục tiêu tạo ra một 'bộ não hiện thân' thực sự đa năng.
Ý chính từ bài gốc
- Qwen-VLA thống nhất các tác vụ vận hành, điều hướng và dự đoán quỹ đạo vào một mô hình duy nhất.
- Sử dụng văn bản cấu trúc để mã hóa đặc điểm phần cứng, cho phép triển khai trên nhiều loại robot mà không cần thay đổi kiến trúc.
- Quy trình huấn luyện 4 giai đoạn giúp mô hình kết hợp hiệu quả giữa nhận thức thị giác-ngôn ngữ và khả năng điều khiển hành động.
- Đạt hiệu suất vượt trội trong các bài kiểm tra thực tế và khả năng tổng quát hóa cao với các tình huống chưa từng gặp (OOD).
- Chứng minh tính khả thi của việc xây dựng một 'bộ não hiện thân' đa năng thay vì các mô hình chuyên biệt cho từng tác vụ.
Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.