← Quay lại dòng tin

Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

LongLive-RAG: Khung RAG đột phá giúp tạo video dài không bị mất nhất quán

LongLive-RAG giải quyết lỗi tích tụ và mất nhận diện trong tạo video dài bằng cách biến các khung hình trước đó thành dữ liệu truy xuất, giúp mô hình duy trì ngữ cảnh xuyên suốt thay vì chỉ dựa vào cử

Điểm 68Thời gian

Tóm tắt

LongLive-RAG giải quyết lỗi tích tụ và mất nhận diện trong tạo video dài bằng cách biến các khung hình trước đó thành dữ liệu truy xuất, giúp mô hình duy trì ngữ cảnh xuyên suốt thay vì chỉ dựa vào cửa sổ trượt.

Vì sao đáng chú ý

Giải pháp sáng tạo áp dụng RAG vào video, giải quyết vấn đề cốt lõi của các mô hình AR hiện nay. Tính ứng dụng cao và kết quả thực nghiệm ấn tượng trên VBench-Long.

Nội dung dịch chi tiết

Các mô hình khuếch tán video tự hồi quy (AR) cho phép tổng hợp video với độ dài linh hoạt. Tuy nhiên, việc tạo video dài thường gặp khó khăn do lỗi tích tụ và hiện tượng trôi dạt danh tính. Để tối ưu hiệu suất, các phương pháp hiện nay thường sử dụng cơ chế chú ý cửa sổ trượt (sliding-window attention), tạo ra một quỹ đạo tạo video không thể đảo ngược. Khi cửa sổ hoạt động gặp lỗi về hình ảnh, các bước tạo tiếp theo sẽ bị ảnh hưởng và dẫn đến sai lệch ngày càng lớn.

Nhóm tác giả đề xuất LongLive-RAG, một khung làm việc truy xuất tổng quát cho tạo video AR, nhằm khắc phục hạn chế trên bằng cách định nghĩa lại bài toán tạo video dài dưới dạng tạo nội dung tăng cường truy xuất (RAG). Thay vì chỉ dựa vào cửa sổ gần nhất, hệ thống coi các latent đã tạo trước đó là một lịch sử động có thể tìm kiếm được.

Tại mỗi khối mới, LongLive-RAG sử dụng một embedding truy vấn để tìm kiếm các latent lịch sử phù hợp. Bước truy xuất nhẹ nhàng này chỉ tạo ra một lượng chi phí tính toán nhỏ so với quá trình tạo, cho phép bộ tạo tham chiếu đến bối cảnh phi cục bộ thay vì chỉ giới hạn trong cửa sổ gần nhất.

Để tăng tính phân biệt cho quá trình truy xuất, nhóm nghiên cứu giới thiệu Window Temporal Delta Loss. Hàm mất mát này giúp loại bỏ sự tương đồng cục bộ dư thừa và khuyến khích các embedding nắm bắt những thay đổi mang tính thời gian có ý nghĩa. Các thành phần này phối hợp giúp giảm thiểu sự tích tụ lỗi do cơ chế cửa sổ trượt gây ra.

Thực nghiệm trên nhiều cấu trúc AR và độ dài tạo khác nhau cho thấy LongLive-RAG cải thiện chất lượng video dài và đạt thứ hạng trung bình tốt nhất trên VBench-Long. Đây là phương pháp đầu tiên trong các mô hình tạo video AR mở định nghĩa lịch sử latent tự tạo thành bộ nhớ truy xuất có thể định địa chỉ nội dung.

Ý chính từ bài gốc

  • Khắc phục lỗi tích tụ và trôi dạt danh tính trong tạo video dài bằng cách sử dụng bộ nhớ truy xuất động.
  • Sử dụng cơ chế RAG để cho phép bộ tạo tham chiếu đến bối cảnh phi cục bộ thay vì chỉ dựa vào cửa sổ trượt.
  • Giới thiệu Window Temporal Delta Loss giúp tăng tính phân biệt cho các embedding và nắm bắt thay đổi thời gian.
  • Đạt hiệu suất vượt trội trên VBench-Long so với các phương pháp tạo video AR hiện có.
  • Là phương pháp đầu tiên coi lịch sử latent tự tạo là bộ nhớ truy xuất có thể định địa chỉ nội dung.

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.