Nghiên cứu · Hugging Face Daily Papers
StateKV: Giải pháp tối ưu hóa mô hình ngôn ngữ thị giác cho video dài với độ phức tạp tuyến tính
StateKV là phương pháp mới giúp các mô hình VLM xử lý video dài hiệu quả hơn bằng cách sử dụng trạng thái tái phát có trọng số, giúp duy trì độ chính xác cao mà không làm tăng chi phí tính toán theo s
Tóm tắt
StateKV là phương pháp mới giúp các mô hình VLM xử lý video dài hiệu quả hơn bằng cách sử dụng trạng thái tái phát có trọng số, giúp duy trì độ chính xác cao mà không làm tăng chi phí tính toán theo số lượng khung hình.
Vì sao đáng chú ý
Nghiên cứu giải quyết bài toán hóc búa về độ trễ và chi phí tính toán cho video dài, có tính ứng dụng cao trong phát triển AI thế hệ mới.
Nội dung dịch chi tiết
Các mô hình ngôn ngữ thị giác video (VLM) ngày càng được ứng dụng rộng rãi trong các tác vụ video dài và phát trực tuyến. Tuy nhiên, hầu hết các bộ mã hóa video hiện nay vẫn dựa vào cơ chế tự chú ý không gian-thời gian (spatiotemporal self-attention), khiến chi phí tính toán và độ trễ tăng theo bình phương số lượng khung hình.
Các phương pháp tối ưu hóa hiện có thường cải thiện khả năng mở rộng nhưng lại làm giảm độ chính xác so với cơ chế tự chú ý đầy đủ. Điều này thường xảy ra do việc loại bỏ khung hình/token quá mức hoặc sử dụng các phép xấp xỉ chú ý thô sơ.
Nhóm nghiên cứu giới thiệu StateKV, một phương pháp tại thời điểm suy luận giúp thích ứng các VLM video dài đã được huấn luyện sẵn sang dạng tiền xử lý video tuyến tính. Phương pháp này truyền tải ngữ cảnh giữa các khung hình thông qua một trạng thái tái phát có dung lượng cố định dựa trên tầm quan trọng, kết hợp với bộ nhớ đệm đầy đủ cho từng khung hình để giải mã.
Kết quả thử nghiệm trên ba bộ dữ liệu video dài và bảy mô hình khác nhau cho thấy StateKV duy trì hiệu suất gần với cơ chế tự chú ý đầy đủ. Phương pháp này vượt trội hơn hẳn so với các kỹ thuật xấp xỉ dựa trên cửa sổ trượt hoặc tính gần đây mà không cần tinh chỉnh hay thay đổi kiến trúc mô hình.
Ngoài ra, StateKV còn giúp giảm chi phí tiền xử lý video (đo bằng FLOPs), cho phép đạt độ chính xác cao hơn với cùng một ngân sách tính toán bằng cách chạy các mô hình lớn hơn. Những kết quả này mở ra một bước tiến thực tiễn hướng tới việc hiểu video dài một cách hiệu quả và có khả năng mở rộng.
Ý chính từ bài gốc
- Cơ chế tự chú ý truyền thống gây tốn kém tài nguyên theo bình phương số khung hình.
- StateKV cho phép mở rộng tuyến tính cho các VLM video mà không cần tinh chỉnh.
- Sử dụng trạng thái tái phát dung lượng cố định để lưu trữ ngữ cảnh quan trọng giữa các khung hình.
- Đạt độ chính xác cao hơn các phương pháp xấp xỉ hiện có mà không làm thay đổi kiến trúc.
- Giảm chi phí tính toán (FLOPs), hỗ trợ triển khai các mô hình lớn hơn hiệu quả hơn.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.