Mô hình · The Decoder: AI News

Baidu ra mắt Unlimited OCR: Xử lý hàng chục trang tài liệu cùng lúc nhờ cơ chế 'quên' như con người

Baidu giới thiệu mô hình Unlimited OCR sử dụng cơ chế R-SWA giúp tối ưu bộ nhớ, cho phép xử lý hàng chục trang tài liệu với tốc độ cao mà không tăng tài nguyên khi văn bản dài ra. Mô hình đã đạt hiệu

Điểm 67Thời gian 22:25 · 05/07/2026

Lý do đề xuất

Bước tiến quan trọng trong tối ưu hóa OCR cho tài liệu dài, giải quyết bài toán bộ nhớ hiệu quả và đã có mã nguồn mở, rất hữu ích cho cộng đồng phát triển.

Tóm tắt

Bản dịch AI

Các hệ thống end-to-end hiện nay sử dụng mô hình ngôn ngữ làm bộ giải mã (decoder), vì vậy bộ đệm (buffer) này tăng lên theo từng dòng văn bản mới. Điều đó làm tăng mức tiêu thụ bộ nhớ và khiến tốc độ tạo văn bản chậm dần. Trên thực tế, các hệ thống giải quyết vấn đề này bằng một vòng lặp xử lý từng trang tài liệu, đặt lại bộ nhớ đệm (cache) sau mỗi bước.

Diagram of Unlimited OCR's architecture. On the left, a person copying a book, labeled "focus the books," "working memory," and "forgetting (soft)." On the right, the architecture showing the DeepEnco

Baidu mô tả vấn đề này bằng một phép ẩn dụ về con người. Một người chép sách không đọc lại tất cả những gì họ đã viết. Họ chỉ tập trung vào nguồn tài liệu, vài ký tự cuối cùng họ vừa viết và ký tự tiếp theo cần đặt xuống. Những đoạn văn cũ hơn sẽ mờ dần thông qua một kiểu "quên mềm". Các nhà nghiên cứu muốn Unlimited OCR bắt chước mô hình đó.

Cửa sổ cố định giúp giới hạn mức sử dụng bộ nhớ

Nó hoạt động thông qua cơ chế mà nhóm nghiên cứu gọi là Reference Sliding Window Attention (R-SWA). Mỗi token được tạo ra vẫn nhìn thấy tất cả các token tham chiếu, các token hình ảnh trực quan và câu lệnh (prompt). Tuy nhiên, khi nói đến đầu ra đã tạo trước đó, nó chỉ nhìn lại 128 token gần nhất. Điều này giúp KV cache duy trì ở mức cố định trong suốt quá trình thay vì tăng tuyến tính theo độ dài đầu ra.

Two side-by-side attention matrices titled "Vanilla Attention" and "R-SWA." Color-coded cells distinguish reference tokens, working memory, and unattended positions, showing that R-SWA maintains a con

Cơ chế sliding window attention tiêu chuẩn cũng sẽ khiến các token hình ảnh phải chịu những thay đổi trạng thái liên tục, dần dần làm mờ các đặc trưng hình ảnh và làm giảm chất lượng nhận dạng. R-SWA miễn trừ các token hình ảnh khỏi những chuyển đổi này. Chúng được mã hóa một lần và giữ nguyên không thay đổi.

KV cache hoạt động như một hàng đợi, nơi mỗi token mới sẽ đẩy token cũ nhất ra ngoài. Với cơ chế multi-head attention tiêu chuẩn, mức sử dụng bộ nhớ tăng không giới hạn khi số lượng token tăng lên. R-SWA giới hạn nó ở tổng cố định của độ dài tiền tố (prefix length) và kích thước cửa sổ.

Line chart of per-call Flash Attention v3 kernel latency across decode steps from 0 to 6,000. The DeepSeek OCR curve (Ds-Attn) climbs past 16 microseconds, while the Unlimited OCR curve (UoW-Attn) sta

Được xây dựng dựa trên Deepseek OCR

Unlimited OCR được xây dựng dựa trên mô hình mã nguồn mở Deepseek OCR. Baidu giữ lại DeepEncoder của họ và kết hợp nó với kiến trúc mixture-of-experts với 3 tỷ tham số, trong đó chỉ khoảng 500 triệu tham số hoạt động trong quá trình suy luận (inference). DeepEncoder nén một hình ảnh PDF kích thước 1024x1024 pixel xuống còn 256 token.

Hai chế độ phân giải được giữ lại. Chế độ "Base" xử lý các tài liệu nhiều trang, và chế độ "Gundam" sử dụng độ phân giải động cho các trang đơn lẻ. Mọi lớp attention tiêu chuẩn trong bộ giải mã đều được thay thế bằng R-SWA.

Quá trình huấn luyện sử dụng khoảng 2 triệu mẫu tài liệu, được chia theo tỷ lệ 9:1 giữa dữ liệu trang đơn và đa trang. Paddle OCR đảm nhận việc chú thích cho các trang đơn. Dữ liệu đa trang được tạo tổng hợp bằng cách ghép các trang đơn lại thành các tài liệu có độ dài từ 2 đến 50 trang.

Tất cả dữ liệu được đóng gói thành các chuỗi 32.000 token; quá trình huấn luyện chạy trong 4.000 bước trên 8 cụm 16 GPU Nvidia A800. DeepEncoder được giữ đóng băng (frozen) và chỉ các tham số của mô hình ngôn ngữ được cập nhật.

Điểm số tốt hơn bất chấp sự hạn chế của attention

Theo các tác giả, Unlimited OCR đạt 93% tổng điểm trên bộ tiêu chuẩn đánh giá tài liệu OmniDocBench v1.5, cao hơn 6 điểm phần trăm so với mức cơ sở của Deepseek OCR. Bộ tiêu chuẩn này đo lường một số tác vụ phụ. Tỷ lệ lỗi nhận dạng văn bản thuần túy, được đo bằng khoảng cách chỉnh sửa (số lượng sửa đổi cần thiết trên mỗi ký tự), giảm nhẹ. Khả năng nhận dạng cấu trúc bảng cải thiện rõ rệt hơn, tăng gần 6 điểm phần trăm. Trên phiên bản v1.6 mới hơn, mô hình đạt 93,92%, đứng đầu bảng xếp hạng các hệ thống end-to-end.

Trong bài kiểm tra tầm xa (long-horizon), nơi mô hình xử lý nhiều trang trong một lần chạy, tỷ lệ lỗi vẫn duy trì dưới 0,11 ngay cả khi vượt quá 40 trang. Các tác giả cho rằng những lỗi còn lại không phải do mất ngữ cảnh mà do giới hạn độ phân giải của DeepEncoder ở chế độ Base khi văn bản trở nên quá nhỏ.

Việc giới hạn cửa sổ ở 128 token trên các trang đơn không làm giảm độ chính xác. Thực tế, nó còn giúp ích đôi chút. Các nhà nghiên cứu nghi ngờ rằng R-SWA buộc mô hình phải tập trung chặt chẽ hơn vào tác vụ OCR dày đặc, trong khi cơ chế full attention có xu hướng phân kỳ khi độ dài đầu ra tăng lên.

Bộ nhớ đệm cố định cũng giúp tăng tốc độ. Ở chế độ Base, Unlimited OCR đạt 5.580 token mỗi giây so với 4.951 của Deepseek OCR, tăng 12,7%. Trong so sánh lý thuyết về giới hạn trên với khả năng song song hóa lý tưởng, mô hình dẫn trước mức cơ sở 35% ở khoảng 6.000 token đầu ra, trong khi thông lượng của mức cơ sở giảm dần khi độ dài tăng lên.

Đối với việc phân tích tài liệu dài, thế mạnh cốt lõi của mô hình, nó duy trì khoảng cách chỉnh sửa dưới 0,11 và điểm Distinct-35 đạt 97% ngay cả ở mức trên 40 trang, theo Baidu. Các lỗi xuất hiện chủ yếu với văn bản nhỏ, điều mà các nhà nghiên cứu cho là do độ phân giải hạn chế của chế độ Base chứ không phải do vấn đề định hướng với R-SWA.

Chưa thực sự không giới hạn

Độ dài ngữ cảnh cố định 32.000 token của mô hình giới hạn số lượng trang mà nó có thể tiếp nhận, vì các token hình ảnh tích tụ theo mỗi trang bổ sung. Baidu dự định sớm huấn luyện các mô hình 128.000 token và cuối cùng xây dựng một "prefill pool" cho phép mô hình tự tìm nạp các khối KV liên quan, giống như việc lật giở một cuốn sách. Các tác giả cũng nhận thấy R-SWA có thể chuyển đổi sang các tác vụ dựa trên tham chiếu khác như nhận dạng giọng nói và dịch thuật.

Mã nguồn và trọng số mô hình có sẵn trên GitHub và Hugging Face. Mô hình chạy trên ModelScope và các công cụ suy luận vLLM và SGLang. Bạn có thể dùng thử bản demo trên Hugging Face Spaces.

OCR đã trở thành một trong những chiến trường sôi động nhất của AI, với các mô hình cạnh tranh chủ yếu về hiệu quả token. Sự quan tâm này vượt xa phạm vi nhận dạng tài liệu. Vì văn bản dựa trên hình ảnh sử dụng ít tài nguyên tính toán hơn nhiều so với văn bản kỹ thuật số tương đương, phương pháp này có thể mở rộng bộ nhớ mô hình ngôn ngữ cho các lịch sử trò chuyện dài hoặc tài liệu lớn. Các nhà phát triển đã sử dụng điều này để cắt giảm chi phí token trên Fable 5 của Anthropic.

Deepseek đã thúc đẩy hướng đi này từ đầu năm nay với Deepseek OCR 2, một bộ mã hóa sắp xếp lại thông tin hình ảnh theo ngữ nghĩa thay vì đọc cứng nhắc từ trên xuống dưới, trái sang phải. Nó đạt 91,09% trên OmniDocBench v1.5.

Mistral AI đang xây dựng vị thế của mình với Mistral OCR 3, quảng bá khả năng nhận dạng tốt hơn đối với chữ viết tay, biểu mẫu và các bảng phức tạp. Đối với Baidu, công trình này phù hợp với một nỗ lực AI rộng lớn hơn. Công ty gần đây đã phát hành Ernie 5.1, một mô hình đa phương thức được xếp hạng là mô hình Trung Quốc hàng đầu trên LMArena.

Các cuốn sách có thể quét nhanh cũng rất hấp dẫn để làm dữ liệu huấn luyện cho các mô hình ngôn ngữ mới, một chủ đề đang gây ra cuộc tranh luận gay gắt. Các nhà nghiên cứu đã chỉ ra rằng các mô hình ngôn ngữ lớn có thể tái tạo gần như nguyên văn các đoạn văn từ những cuốn sách có bản quyền như "Harry Potter" và "The Hobbit".

Ý chính từ bài gốc

Unlimited OCR xử lý hàng chục trang tài liệu cùng lúc với bộ nhớ cố định.
Cơ chế R-SWA mô phỏng cách con người đọc, chỉ ghi nhớ 128 token gần nhất.
Giữ tốc độ và hiệu suất ổn định, không bị chậm lại khi tài liệu dài hơn.
Đạt điểm số 93,92% trên OmniDocBench v1.6, đứng đầu bảng xếp hạng hiện tại.
Mã nguồn và trọng số mô hình đã được công khai trên GitHub và Hugging Face.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ The Decoder. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.