Nghiên cứu · Hugging Face Daily Papers

LongAttnComp: Giải pháp nén ngữ cảnh xuyên dòng cho suy luận văn bản dài

LongAttnComp tối ưu hóa hiệu suất suy luận cho các mô hình ngôn ngữ xử lý trên 100k token thông qua kỹ thuật nén ngữ cảnh thông minh và quy trình tinh chỉnh hai giai đoạn, giúp duy trì độ chính xác tr

Điểm 85Thời gian 07:00 · 02/06/2026

Tóm tắt

Vì sao đáng chú ý

Đây là nghiên cứu quan trọng giải quyết nút thắt về chi phí và hiệu suất khi xử lý ngữ cảnh cực dài, có tính ứng dụng cao cho các mô hình LLM hiện nay.

Nội dung dịch chi tiết

Khi các ứng dụng thực tế đòi hỏi xử lý đầu vào trên 100.000 token, khoảng cách giữa độ dài ngữ cảnh và hiệu suất suy luận trở thành nút thắt quan trọng. Nén ngữ cảnh là giải pháp giúp giảm chi phí tiền xử lý (prefill) trong khi vẫn bảo toàn độ chính xác của tác vụ.

Tuy nhiên, các phương pháp dựa trên sự chú ý (attention) không cần huấn luyện hiện nay vẫn để lại những khoảng trống đáng kể trong các tác vụ đòi hỏi cao như suy luận mã nguồn. Để giải quyết vấn đề này, các tác giả giới thiệu LongAttnComp, một bản chuyển thể của AttnComp dành cho ngữ cảnh dài.

LongAttnComp tinh chỉnh một lớp tính điểm cross-attention nhẹ, đồng thời giới thiệu các kỹ thuật mới bao gồm: phân đoạn cấp token, thuật toán top-p theo ngân sách token, sắp xếp lại vị trí và trình phân tích truy vấn không phụ thuộc định dạng.

Nhóm nghiên cứu thiết kế quy trình tinh chỉnh hai giai đoạn cho bộ nén: Giai đoạn 1 xây dựng nền tảng truy xuất tổng quát từ dữ liệu kiểu NIAH, và Giai đoạn 2 mở rộng với dữ liệu suy luận đa bước để bao phủ phạm vi tác vụ rộng hơn.

Kết quả thực nghiệm trên InfiniteBench Code-Debug cho thấy LongAttnComp đạt hoặc vượt độ chính xác của ngữ cảnh đầy đủ, vượt trội so với các phương pháp cơ sở không cần huấn luyện và có khả năng chuyển đổi linh hoạt giữa bốn mô hình mục tiêu từ ba họ khác nhau. Trên LongBench v2, quy trình hai giai đoạn giúp thu hẹp đáng kể khoảng cách hiệu suất trong suy luận đa tài liệu.

Ý chính từ bài gốc

LongAttnComp giải quyết nút thắt hiệu suất khi xử lý ngữ cảnh dài trên 100k token.
Sử dụng lớp cross-attention nhẹ kết hợp phân đoạn token và thuật toán top-p.
Quy trình tinh chỉnh hai giai đoạn giúp tối ưu hóa khả năng truy xuất và suy luận.
Vượt trội hơn các phương pháp không cần huấn luyện trong các tác vụ suy luận mã nguồn.
Khả năng tương thích cao, chuyển đổi hiệu quả giữa các mô hình từ nhiều họ khác nhau.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan