Mô hình · MarkTechPost

Alibaba ra mắt Qwen3.7-Plus: Mô hình đa phương thức với khả năng tự lập trình và suy luận chuyên sâu

Đội ngũ Qwen vừa giới thiệu Qwen3.7-Plus trên nền tảng Bailian, bổ sung khả năng xử lý hình ảnh, video cùng các tính năng đột phá như tự lập trình, sử dụng công cụ và tự lặp lại quá trình suy luận.

Điểm 67Thời gian 16:13 · 02/06/2026

Tóm tắt

Vì sao đáng chú ý

Đây là bản cập nhật quan trọng từ một trong những mô hình AI hàng đầu thế giới, mang tính ứng dụng cao cho các nhà phát triển và doanh nghiệp.

Nội dung dịch chi tiết

Đội ngũ Qwen của Alibaba đã chính thức ra mắt Qwen3.7-Plus, mô hình ngôn ngữ lớn đa phương thức mới nhất hiện đã có sẵn trên nền tảng Bailian (được quốc tế biết đến với tên gọi Model Studio). Đây là bước tiến tiếp theo sau khi thế hệ Qwen3.7 được công bố vào tháng 5, bổ sung khả năng hiểu hình ảnh và video bên cạnh các văn bản đầu vào.

Khác với các mô hình tạo ảnh, Qwen3.7-Plus tập trung vào khả năng phân tích và hiểu dữ liệu thị giác. Mô hình này được thiết kế như một tác nhân (agent) có khả năng lập kế hoạch và thực hiện các bước công việc phức tạp. Nó sở hữu năm năng lực cốt lõi: suy luận sâu, tự lập trình, gọi công cụ, kiểm chứng kết quả và tự động lặp lại quy trình cho đến khi đạt mục tiêu.

Trong các bài kiểm tra tại Vision Arena, Qwen3.7-Plus bản thử nghiệm đã đạt vị trí thứ 16 chung cuộc, giúp Alibaba trở thành phòng thí nghiệm đứng thứ 5 về khả năng thị giác máy tính. Kết quả này đặc biệt hữu ích cho các tác vụ như nhận dạng ký tự quang học (OCR) quy mô lớn, đọc biểu đồ và phân tích khung hình video.

Nền tảng Bailian hỗ trợ mô hình này thông qua cơ chế Học tăng cường tác nhân (Agentic RL), cho phép tinh chỉnh độ chính xác dựa trên phản hồi thực tế. Ngoài ra, hệ thống còn tích hợp các rào cản an toàn để kiểm soát các công cụ tự hành, đảm bảo chúng hoạt động trong giới hạn cho phép khi thực hiện các lệnh hoặc chỉnh sửa tệp tin.

Qwen3.7-Plus là mảnh ghép đa phương thức trong dòng sản phẩm 3.7, bổ sung cho phiên bản Qwen3.7-Max chỉ tập trung vào văn bản. Với sự kết hợp giữa khả năng hiểu đa phương thức và tính năng tác nhân, Alibaba đang định hướng mô hình này cho các công việc đòi hỏi sự bền bỉ và khả năng xử lý tự động phức tạp.

Ý chính từ bài gốc

Qwen3.7-Plus là mô hình đa phương thức có khả năng hiểu hình ảnh, video và thực hiện tác vụ tự hành.
Tích hợp 5 năng lực: suy luận sâu, tự lập trình, gọi công cụ, kiểm chứng kết quả và tự động lặp lại tác vụ.
Được triển khai trên nền tảng Bailian với cơ chế Học tăng cường tác nhân (Agentic RL) để tối ưu độ chính xác.
Đạt vị trí thứ 16 trên bảng xếp hạng Vision Arena, khẳng định năng lực của Alibaba trong lĩnh vực thị giác máy tính.
Tập trung vào các tác vụ dài hạn, hỗ trợ OCR quy mô lớn, đọc biểu đồ và phân tích video.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ MarkTechPost. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan