Mô hình · IT Home（RSS）

Shengshu Technology ra mắt Vidu S1: Mô hình AI hỗ trợ gọi video và điều khiển bằng giọng nói theo thời gian thực

Vidu S1 là mô hình AI mới cho phép tương tác video thời gian thực, nơi người dùng có thể điều khiển biểu cảm, hành động và nội dung video của nhân vật ảo thông qua giọng nói với độ trễ thấp.

Điểm 56Thời gian 20:07

Tóm tắt

Vì sao đáng chú ý

Đây là bước tiến quan trọng trong công nghệ video AI tương tác, có tính ứng dụng cao trong giải trí và dịch vụ khách hàng, thu hút sự quan tâm lớn từ cộng đồng công nghệ.

Nội dung dịch chi tiết

Ngày 3 tháng 7, Shengshu Technology đã chính thức công bố Vidu S1, thế hệ mô hình mới được thiết kế cho các kịch bản tương tác thời gian thực. Theo công bố từ hãng, Vidu S1 hỗ trợ các cuộc gọi video trực tiếp và cho phép người dùng điều khiển hướng đi của video bằng giọng nói, đồng thời hỗ trợ tương tác liên tục không giới hạn thời gian.

Về thông số kỹ thuật, Vidu S1 hỗ trợ độ phân giải 540P (960x540) với tốc độ khung hình tiêu chuẩn 25FPS và có thể đạt tối đa 42FPS. Người dùng có thể tạo ra các nhân vật tương tác độc quyền dựa trên nhiều hình mẫu ban đầu như người thật, nhân vật hoạt hình hoặc thú cưng, kết hợp với tùy chỉnh âm sắc cá nhân.

Điểm cốt lõi của Vidu S1 nằm ở việc áp dụng lộ trình mô hình khuếch tán tự hồi quy (AR + Diffusion). Thay vì tạo ra toàn bộ video cùng một lúc, mô hình sẽ dựa trên các khung hình lịch sử đã tạo, kết hợp với lệnh thoại hiện tại và ngữ cảnh hội thoại để liên tục dự đoán và tạo ra nội dung tiếp theo.

Khi người dùng đưa ra lệnh thoại mới, mô hình có khả năng hiểu và điều chỉnh biểu cảm, hành động của nhân vật cũng như hướng đi của video trong thời gian thực. Điều này giúp chuyển đổi video từ nội dung cố định sang một quá trình tương tác động, phản hồi tức thì và liên tục phát triển.

Hiện tại, Vidu S1 đã bắt đầu giai đoạn thử nghiệm nội bộ. Người dùng có thể trải nghiệm trực tuyến thông qua trang web chính thức của Vidu hoặc thông qua API được cung cấp trên nền tảng của hãng.

Ý chính từ bài gốc

Shengshu Technology ra mắt mô hình Vidu S1 hỗ trợ tương tác video và giọng nói thời gian thực.
Hỗ trợ độ phân giải 540P, tốc độ khung hình từ 25FPS đến tối đa 42FPS.
Sử dụng kiến trúc khuếch tán tự hồi quy (AR + Diffusion) để tạo nội dung liên tục.
Cho phép tùy chỉnh nhân vật từ người thật, hoạt hình, thú cưng với âm sắc cá nhân.
Người dùng có thể điều khiển biểu cảm và hành động của nhân vật thông qua lệnh thoại.

Mở bài gốc