Mô hình · : (Vidu - Video)

Shengshu Technology ra mắt Vidu S1: Đưa tạo video AI vào kỷ nguyên tương tác thời gian thực

Điểm 70Thời gian 22:46

Tóm tắt

Shengshu Technology vừa chính thức giới thiệu Vidu S1, mô hình AI thế hệ mới cho phép tạo video tương tác thời gian thực. Công nghệ này cho phép người dùng trò chuyện, điều khiển hành vi nhân vật ảo bằng giọng nói và tạo video không giới hạn thời lượng, mở ra bước tiến mới trong lĩnh vực AI tạo sinh.

Nội dung dịch chi tiết

Ngày 3/7, tại Diễn đàn Phát triển Ứng dụng Tích hợp AI thuộc Hội nghị Kinh tế Kỹ thuật số Toàn cầu 2026, nhà sáng lập Shengshu Technology, ông Chu Quân, đã công bố mô hình Vidu S1. Đây là mô hình thế hệ mới được thiết kế chuyên biệt cho các kịch bản tương tác thời gian thực, giúp AI chuyển đổi từ việc "tạo nội dung tĩnh" sang "tương tác liên tục".

Vidu S1 mang đến khả năng tương tác trực tiếp thông qua cuộc gọi video và điều khiển bằng giọng nói. Người dùng có thể ra lệnh cho nhân vật ảo thực hiện hành động, thay đổi biểu cảm hoặc hướng đi của video ngay trong lúc trò chuyện. Mô hình hỗ trợ độ phân giải 540P (960x540) với tốc độ khung hình 25FPS (tối đa 42FPS), tạo ra trải nghiệm mượt mà và chân thực.

Khác với các mô hình truyền thống hoạt động theo cơ chế "nhập lệnh - chờ đợi - phát kết quả", Vidu S1 sử dụng kiến trúc mô hình khuếch tán tự hồi quy (AR + Diffusion). Hệ thống không tạo ra toàn bộ video một lần mà liên tục dự đoán và tạo nội dung tiếp theo dựa trên lịch sử hình ảnh, ngữ cảnh đối thoại và lệnh giọng nói mới nhất từ người dùng. Điều này cho phép nhân vật ảo hiểu được ý định, cảm xúc và phản hồi tức thì.

Một bước đột phá khác của Vidu S1 là khả năng tạo video thời gian thực với thời lượng không giới hạn. Ngay cả khi tương tác kéo dài hàng giờ, hình ảnh nhân vật vẫn giữ được sự ổn định, không bị biến dạng hay mất kết nối. Việc tạo nhân vật cũng trở nên đơn giản hơn bao giờ hết: người dùng chỉ cần tải lên một bức ảnh duy nhất, hệ thống sẽ tự động nhận diện danh tính và phong cách để tạo ra nhân vật tương tác mà không cần qua các bước mô hình hóa hay huấn luyện phức tạp.

Để đạt được hiệu suất này, Vidu S1 đã tối ưu hóa các công cụ suy luận như TurboDiffusion và TurboServe. Nhờ đó, mô hình có thể chạy mượt mà trên các card đồ họa tiêu dùng thông thường. Công nghệ này hứa hẹn sẽ ứng dụng rộng rãi trong các lĩnh vực như đồng hành cảm xúc, thần tượng ảo, livestream tương tác, NPC trong game, dịch vụ khách hàng thông minh và XR.

Ý chính từ bài gốc

Vidu S1 cho phép tương tác thời gian thực thông qua giọng nói và video, thay đổi cách người dùng giao tiếp với AI.
Sử dụng kiến trúc AR + Diffusion để tạo video liên tục, phản hồi tức thì theo ngữ cảnh và lệnh của người dùng.
Hỗ trợ tạo video không giới hạn thời lượng với độ phân giải 540P và tốc độ khung hình lên tới 42FPS.
Khả năng tạo nhân vật ảo chỉ từ một bức ảnh duy nhất, loại bỏ quy trình mô hình hóa và huấn luyện phức tạp.
Tối ưu hóa hiệu suất để chạy trên card đồ họa tiêu dùng, sẵn sàng cho các ứng dụng như livestream, game và trợ lý ảo.

Mở bài gốc