Mô hình · : JoyAI

JD.com ra mắt JoyAI-Echo: Bước tiến mới trong tạo video dài với độ nhất quán cao

JoyAI-Echo giải quyết triệt để vấn đề mất nhất quán về nhân vật và âm thanh trong video dài, đồng thời tăng tốc độ suy luận gấp 7,5 lần nhờ công nghệ DMD và hỗ trợ chỉnh sửa cục bộ qua ngôn ngữ tự nhi

Điểm 72Thời gian 12:27 · 05/06/2026

Tóm tắt

Vì sao đáng chú ý

Công nghệ giải quyết đúng 'nỗi đau' của video AI hiện nay là tính nhất quán và tốc độ, có tính ứng dụng thực tế cao và đã mở mã nguồn.

Nội dung dịch chi tiết

Ngày 3/6, JD.com chính thức giới thiệu JoyAI-Echo, khung tạo video dài tích hợp âm thanh, giải quyết ba thách thức lớn của ngành: nhân vật dễ bị biến dạng, âm thanh không ổn định và tốc độ tạo chậm. Điểm đột phá quan trọng nhất là tính năng "chỉnh sửa đối thoại", cho phép người dùng chỉnh sửa từng phân cảnh cụ thể mà không cần tạo lại toàn bộ video.

JoyAI-Echo tích hợp một thư viện bộ nhớ chuyên dụng, giúp lưu trữ và gọi lại các đặc điểm ngoại hình của nhân vật cũng như âm sắc giọng nói trong suốt quá trình tạo nhiều cảnh quay. Kết quả thử nghiệm cho thấy, trong video dài 5 phút, danh tính nhân vật, hình ảnh trực quan và âm thanh được duy trì nhất quán cao, loại bỏ tình trạng nhân vật bị thay đổi giữa chừng.

Đội ngũ phát triển đã sáng tạo quy trình hậu huấn luyện dựa trên bộ nhớ, kết hợp các kỹ thuật SFT, RLHF đa phương thức và DMD. Đặc biệt, công nghệ DMD giúp tăng tốc độ suy luận lên khoảng 7,5 lần, biến quá trình tạo video dài từ "chờ đợi lâu" thành "xuất video trong tích tắc".

Tính năng "Director Agent" (Trợ lý đạo diễn) cho phép người dùng tương tác bằng ngôn ngữ tự nhiên để phân tách kịch bản, nhân vật và cảnh quay. Nếu không hài lòng với một phần nào đó, người dùng chỉ cần yêu cầu chỉnh sửa cục bộ, giúp quy trình làm việc chuyển từ "tạo tĩnh" sang "hợp tác động".

Để đáp ứng nhu cầu sản xuất chuyên nghiệp, JoyAI-Echo còn trang bị mô-đun siêu phân giải thời gian thực, hỗ trợ nâng cao độ phân giải và âm thanh tinh tế. Kết quả đánh giá trên tập dữ liệu gồm 100 câu chuyện và 3.000 cảnh quay cho thấy, JoyAI-Echo dẫn đầu về độ nhất quán giữa các cảnh, chất lượng video và độ chính xác của nội dung giọng nói (đạt 0,8646).

Hiện tại, mã nguồn và trọng số của JoyAI-Echo đã được JD.com công khai hoàn toàn trên GitHub và trang dự án, mở ra cơ hội cho các nhà phát triển và sáng tạo nội dung trải nghiệm cũng như phát triển thêm các tính năng mới.

Ý chính từ bài gốc

JoyAI-Echo giải quyết ba vấn đề lớn: nhân vật biến dạng, âm thanh không ổn định và tốc độ tạo chậm.
Tính năng 'chỉnh sửa đối thoại' cho phép sửa đổi cục bộ từng cảnh quay mà không cần tạo lại toàn bộ video.
Công nghệ DMD giúp tăng tốc độ suy luận lên gấp 7,5 lần, tối ưu hóa hiệu suất tạo video dài.
Tích hợp 'Director Agent' hỗ trợ người dùng lập kế hoạch và chỉnh sửa video thông qua ngôn ngữ tự nhiên.
Mã nguồn và trọng số của dự án đã được công khai hoàn toàn trên GitHub cho cộng đồng phát triển.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan