← Quay lại dòng tin

Sản phẩm · MarkTechPost

Cựu trưởng nhóm Qwen chia sẻ: Tại sao tư duy lai thất bại và tương lai nằm ở AI tác tử

Junyang Lin, cựu kỹ thuật trưởng của Qwen, phân tích những hạn chế của mô hình tư duy lai và lý do ông chuyển hướng sang phát triển AI tác tử (agentic AI) cùng những thách thức về hạ tầng học tăng cườ

Điểm 52Thời gian

Tóm tắt

Junyang Lin, cựu kỹ thuật trưởng của Qwen, phân tích những hạn chế của mô hình tư duy lai và lý do ông chuyển hướng sang phát triển AI tác tử (agentic AI) cùng những thách thức về hạ tầng học tăng cường.

Vì sao đáng chú ý

Bài viết cung cấp góc nhìn chuyên sâu từ người trong cuộc về xu hướng công nghệ quan trọng, rất hữu ích cho các kỹ sư và người làm AI.

Nội dung dịch chi tiết

Junyang Lin, cựu trưởng nhóm kỹ thuật dự án Qwen của Alibaba, đã rời vị trí vào ngày 3/3/2026 để trở thành nhà nghiên cứu độc lập. Trong bài thuyết trình và bài viết chuyên sâu gần đây, ông đã tổng kết quá trình phát triển của dòng mô hình Qwen, từ Qwen2.5 đến Qwen3, đồng thời đưa ra nhận định quan trọng: ngành AI đang chuyển dịch từ "huấn luyện mô hình" sang "huấn luyện tác nhân".

Lin chỉ ra rằng tư duy lai (hybrid thinking) – kết hợp chế độ suy luận từng bước và chế độ phản hồi tức thì – là một thách thức kỹ thuật lớn. Việc hợp nhất hai chế độ này thường gây ra xung đột: mô hình hướng dẫn (instruct) cần sự ngắn gọn, trong khi mô hình suy luận (thinking) lại cần tiêu tốn nhiều token hơn. Qwen3 đã thử nghiệm hợp nhất thông qua quy trình hậu huấn luyện bốn giai đoạn, nhưng cuối cùng vẫn phải tách biệt hai biến thể này để đảm bảo hiệu suất tối ưu.

Theo Lin, tư duy suy luận (reasoning thinking) như ở o1 hay DeepSeek-R1 đã dạy cho ngành AI tầm quan trọng của học tăng cường (RL) dựa trên các phần thưởng có thể kiểm chứng như toán học và mã nguồn. Tuy nhiên, ông cho rằng kỷ nguyên tiếp theo là tư duy tác nhân (agentic thinking), nơi AI không chỉ độc thoại nội tâm mà còn phải lập kế hoạch, sử dụng công cụ, đọc phản hồi từ môi trường và điều chỉnh hành động.

Sự khác biệt cốt lõi nằm ở mục tiêu tối ưu hóa. Trong khi tư duy suy luận tập trung vào chất lượng lập luận nội bộ, tư duy tác nhân tập trung vào sự thành công của nhiệm vụ trong môi trường tương tác. Điều này đòi hỏi hạ tầng kỹ thuật phải tách biệt giữa huấn luyện và suy luận để tránh tình trạng nghẽn cổ chai khi tác nhân phải chờ đợi phản hồi từ các công cụ bên ngoài.

Cuối cùng, Lin nhấn mạnh rằng thách thức lớn nhất trong kỷ nguyên tác nhân là vấn đề "hack phần thưởng" (reward hacking) khi mô hình có quyền truy cập vào các công cụ thực tế. Ông cho rằng các đội ngũ phát triển cần tập trung tối ưu hóa chất lượng môi trường – bao gồm tính ổn định, tính thực tế và khả năng chống lại các thao túng – thay vì chỉ tập trung vào sự đa dạng của dữ liệu như trước đây.

Ý chính từ bài gốc

  • Ngành AI đang chuyển dịch từ huấn luyện mô hình suy luận sang huấn luyện tác nhân (agent) có khả năng hành động.
  • Tư duy lai (hybrid thinking) gặp khó khăn do xung đột giữa mục tiêu phản hồi nhanh và mục tiêu suy luận sâu.
  • Tư duy tác nhân yêu cầu khả năng lập kế hoạch, sử dụng công cụ và điều chỉnh hành động dựa trên phản hồi môi trường.
  • Hạ tầng kỹ thuật cần tách biệt giữa huấn luyện và suy luận để hỗ trợ các tác nhân tương tác với môi trường thực tế.
  • Thách thức lớn nhất trong kỷ nguyên tác nhân là ngăn chặn hành vi 'hack phần thưởng' khi mô hình có quyền truy cập công cụ.

Bài viết được AI dịch và tổng hợp tự động từ MarkTechPost. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.