Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

SCAIL-2: Bước tiến mới trong hoạt họa nhân vật bằng điều khiển ngữ cảnh đầu-cuối

SCAIL-2 loại bỏ các bước trung gian như khung xương hay mặt nạ, cho phép chuyển động nhân vật trực tiếp từ video gốc. Nghiên cứu còn giới thiệu tập dữ liệu MotionPair-60K giúp tối ưu hóa quá trình huấ

Điểm 60Thời gian 09:56 · 10/06/2026

Tóm tắt

Vì sao đáng chú ý

Giải quyết vấn đề mất mát dữ liệu trong hoạt họa nhân vật bằng cách bỏ qua các bước trung gian, một hướng đi tiềm năng cho công nghệ video AI.

Nội dung dịch chi tiết

Hoạt họa nhân vật có kiểm soát đòi hỏi việc chuyển đổi chuyển động từ một chuỗi video điều khiển sang nhân vật tham chiếu. Các phương pháp trước đây thường phụ thuộc nặng nề vào các biểu diễn trung gian như khung xương tư thế để mô tả chuyển động hoặc mặt nạ nền để mô tả môi trường, điều này dẫn đến sự mất mát thông tin không thể tránh khỏi.

Để giải quyết vấn đề này, nhóm tác giả giới thiệu SCAIL-2, một khung làm việc bỏ qua các bước trung gian và đạt được hoạt họa nhân vật theo cơ chế "đầu cuối" (end-to-end). Bằng cách nối trực tiếp các video điều khiển vào chuỗi, mô hình có thể thu thập tất cả thông tin hình ảnh cần thiết từ video đầu vào.

Để khắc phục tình trạng thiếu hụt dữ liệu đầu cuối, nhóm nghiên cứu đã hợp nhất các tác vụ phụ của hoạt họa nhân vật với các điều kiện tách biệt, đồng thời xây dựng bộ dữ liệu MotionPair-60K. Đây là tập dữ liệu chuyển đổi chuyển động đầu cuối chứa các tác vụ không đồng nhất về hoạt họa nhân vật.

Nhằm đạt được sự hợp nhất, SCAIL-2 sử dụng kỹ thuật điều kiện mặt nạ trong ngữ cảnh (in-context mask conditioning) và RoPE đặc thù theo chế độ như một sự hướng dẫn mềm, vượt ra ngoài các chỉ dẫn văn bản và thông tin hình ảnh thô. Ngoài ra, để xử lý sự khác biệt trong các vùng chi tiết, nhóm đề xuất Bias-Aware DPO để xây dựng các mục ưu tiên, giúp giảm thiểu sai sót.

Các thử nghiệm mở rộng cho thấy phương pháp này vượt trội đáng kể so với các công nghệ hiện đại nhất hiện nay trong nhiều tác vụ hoạt họa nhân vật khác nhau. Một phần lớn dữ liệu tổng hợp và trọng số mô hình sẽ được công bố trên trang dự án của nhóm tác giả.

Ý chính từ bài gốc

SCAIL-2 loại bỏ các biểu diễn trung gian, cho phép hoạt họa nhân vật theo cơ chế đầu cuối (end-to-end).
Sử dụng tập dữ liệu MotionPair-60K để giải quyết vấn đề thiếu hụt dữ liệu huấn luyện đầu cuối.
Áp dụng in-context mask conditioning và mode-specific RoPE để tăng cường khả năng hướng dẫn mô hình.
Sử dụng Bias-Aware DPO để giảm thiểu sai sót và cải thiện độ chi tiết trong các vùng hình ảnh phức tạp.
Hiệu suất vượt trội so với các phương pháp hiện có trong nhiều tác vụ hoạt họa nhân vật.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan