Nghiên cứu · :
Qwen3.7-Plus: Bước tiến mới biến AI đa phương thức thành 'chuyên gia thực chiến'
Qwen3.7-Plus chính thức ra mắt, tập trung nâng cao khả năng thực thi tác vụ phức tạp và tương tác đa phương thức, giúp AI không chỉ dừng lại ở lý thuyết mà còn trực tiếp giải quyết công việc thực tế.
Tóm tắt
Qwen3.7-Plus chính thức ra mắt, tập trung nâng cao khả năng thực thi tác vụ phức tạp và tương tác đa phương thức, giúp AI không chỉ dừng lại ở lý thuyết mà còn trực tiếp giải quyết công việc thực tế.
Vì sao đáng chú ý
Đây là bản cập nhật quan trọng từ dòng mô hình Qwen hàng đầu, tập trung vào tính ứng dụng thực tiễn cao, rất phù hợp với nhu cầu của cộng đồng AI tại Việt Nam.
Nội dung dịch chi tiết
Qwen3.7-Plus vừa được ra mắt với khả năng nhìn, tư duy và thực hiện hành động. Không chỉ dừng lại ở việc "đọc hiểu" hình ảnh, mô hình này có thể hiểu giao diện, thao tác ứng dụng, tạo mã nguồn và bàn giao kết quả. Bằng cách tích hợp sâu sắc thị giác và ngôn ngữ, Qwen3.7-Plus đóng vai trò là nền tảng tác tử thống nhất, cho phép AI thay đổi thế giới thực thông qua hành động.
Trong các thử nghiệm thực tế, hệ thống Hybrid-Agent dựa trên Qwen3.7-Plus đã tự mình hoàn thành một dự án phát triển ứng dụng học từ vựng tiếng Anh trong 11 giờ liên tục mà không cần sự can thiệp của con người. Hệ thống đã tạo ra hơn 10.000 dòng mã, thực hiện hơn 1.000 lệnh gọi, bao gồm từ khâu tạo tài liệu yêu cầu, viết mã, triển khai tự động, kiểm thử GUI cho đến cập nhật phiên bản.
Đối với các ứng dụng máy tính, Qwen3.7-Plus thể hiện khả năng bàn giao đầu cuối ấn tượng. Nó có thể sao chép ứng dụng Stocks trên macOS bằng cách tự tương tác với giao diện, hiểu bố cục, tạo mã nguồn SwiftUI, kết nối API dữ liệu thời gian thực và tự thực hiện 10 bài kiểm tra chức năng. Kết quả là một ứng dụng có giao diện và trải nghiệm tương đương bản gốc.
Khả năng thị giác của Qwen3.7-Plus vượt xa việc nhận diện thông thường. Đối với các tác vụ đòi hỏi suy luận như giải mê cung hay ghép hình, mô hình tự trích xuất cấu trúc không gian, chuyển đổi thành logic tính toán và sử dụng trình thông dịch mã để giải quyết. Khi gặp vấn đề ngoài hình ảnh, nó kết hợp tìm kiếm nâng cao để đối chiếu bằng chứng thị giác với thông tin mới nhất.
Trong lĩnh vực phát triển phần mềm, mô hình có thể chuyển đổi thiết kế trực tiếp thành mã thực thi. Từ hình ảnh hoặc video tham khảo, nó tổ chức bố cục, viết mã frontend và xử lý hiệu ứng tương tác. Thông qua tiện ích mở rộng Qwen for Chrome, người dùng có thể điều khiển trình duyệt tự động, từ việc mua sắm trên đám mây đến quản trị hệ thống, giúp tối ưu hóa quy trình làm việc phức tạp.
Qwen3.7-Plus đã được tối ưu hóa cho các tác vụ đa phương thức khó như đọc sơ đồ phức tạp, hiểu video và hỗ trợ lái xe tự động. Mô hình hiện đã có mặt trên nền tảng Alibaba Cloud Bailian, hỗ trợ các API tương thích với OpenAI và Anthropic, sẵn sàng để tích hợp ngay vào các quy trình công việc hiện có.
Ý chính từ bài gốc
- Khả năng thực thi đa phương thức: Nhìn, hiểu, viết mã và tự động vận hành giao diện phần mềm.
- Tự động hóa quy trình phát triển: Hoàn thành toàn bộ vòng đời dự án phần mềm mà không cần con người can thiệp.
- Tái tạo ứng dụng từ giao diện: Tự động phân tích UI và tạo mã nguồn SwiftUI với độ chính xác cao.
- Suy luận thị giác nâng cao: Giải quyết các bài toán không gian và logic thông qua việc kết hợp mã nguồn và tìm kiếm tri thức.
- Tích hợp dễ dàng: Hỗ trợ API tương thích OpenAI/Anthropic, có thể sử dụng ngay trên nền tảng Alibaba Cloud Bailian.
Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.