Nghiên cứu · swyx
Cựu lãnh đạo xAI: Tương lai của video AI không nằm ở dữ liệu, mà là các 'Video Agent'
Ethan He nhận định các mô hình video hiện tại chỉ mới dừng ở mức 'tự động hoàn thiện'. Bước tiến tiếp theo sẽ là các Video Agent có khả năng điều phối và tương tác thời gian thực, với LLM đóng vai trò
Tóm tắt
Ethan He nhận định các mô hình video hiện tại chỉ mới dừng ở mức 'tự động hoàn thiện'. Bước tiến tiếp theo sẽ là các Video Agent có khả năng điều phối và tương tác thời gian thực, với LLM đóng vai trò là lớp kiểm soát trung tâm.
Vì sao đáng chú ý
Góc nhìn chuyên sâu từ người trong cuộc tại xAI về sự chuyển dịch từ tạo video đơn thuần sang mô hình điều phối, rất có giá trị cho người theo dõi xu hướng AI.
Nội dung dịch chi tiết
Trong một podcast gần đây, Ethan He, cựu lãnh đạo bộ phận mô hình thế giới tại xAI, đã chia sẻ góc nhìn về Grok Imagine và tương lai của công nghệ tạo video. Ông nhấn mạnh rằng trí thông minh của các mô hình video hiện nay chủ yếu bắt nguồn từ các mô hình ngôn ngữ lớn (LLM), thay vì chỉ đơn thuần là tăng quy mô dữ liệu video. Chính vì lý do này, ông đang chuyển hướng tập trung từ lĩnh vực tạo video sang nghiên cứu LLM.
Theo Ethan He, biên giới tiếp theo của công nghệ tạo video chính là việc huấn luyện các "Video Agent" (tác nhân video) chuyên dụng để điều phối các mô hình video. Ông tin rằng sự phát triển của video AI sẽ đi theo lộ trình tương tự như các tác nhân lập trình (programming agents).
Hiện tại, công nghệ chuyển văn bản thành video (text-to-video) mới chỉ đang ở giai đoạn "tự động hoàn thiện" (auto-complete). Trong tương lai, các mô hình thế giới sẽ tiến tới khả năng tương tác thời gian thực.
Cuối cùng, ông dự đoán rằng các mô hình ngôn ngữ sẽ đóng vai trò là lớp điều khiển chính cho video, định hình cách thức chúng ta tương tác và tạo ra nội dung hình ảnh động trong tương lai.
Ý chính từ bài gốc
- Trí thông minh của mô hình video chủ yếu đến từ LLM thay vì chỉ mở rộng dữ liệu video.
- Ethan He đang chuyển hướng tập trung nghiên cứu từ tạo video sang lĩnh vực LLM.
- Tương lai của video AI nằm ở việc phát triển các 'Video Agent' để điều phối mô hình.
- Công nghệ text-to-video hiện tại mới chỉ dừng ở giai đoạn 'tự động hoàn thiện'.
- Mô hình ngôn ngữ sẽ trở thành lớp điều khiển chính cho các mô hình thế giới tương tác thời gian thực.
Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.