NewsOCRDokumentenerkennungAttention-Mechanismus

Baidu knackt OCR-Bottleneck: Dutzende Seiten in einem Pass

Chinesische Forscher haben ein Dokumenten-Erkennungssystem entwickelt, das die bisherige Zehn-Seiten-Grenze sprengt. Ein modifizierter Attention-Mechanismus hält den Speicherverbrauch konstant.

Dutzende Seiten statt zehn pro Pass

Baidu knackt OCR-Bottleneck: Dutzende Seiten in einem Pass

Baidu-Forscher haben ein OCR-Modell entwickelt, das dutzende Dokumentseiten in einem einzigen Inferenz-Durchgang verarbeitet – während bisherige Systeme bei etwa zehn Seiten stoppen mussten. Das System heißt Unlimited OCR und nutzt einen neuartigen Attention-Mechanismus namens Reference Sliding Window Attention (R-SWA), um Speicher und Verarbeitungsgeschwindigkeit konstant zu halten, unabhängig von der Textmenge.

Kurz & knapp

  • Unlimited OCR verarbeitet dutzende Seiten in einem Pass, während bisherige Systeme bei etwa zehn Seiten stoppen
  • Der Kern der Innovation: R-SWA hält den KV-Cache (Key-Value-Cache) auf konstanter Größe, statt ihn linear wachsen zu lassen
  • Baidu nutzt als Basis das Open-Source-Modell Deepseek OCR und paart es mit einer Mixture-of-Experts-Architektur (3 Milliarden Parameter, davon 500 Millionen aktiv)
  • Training mit etwa zwei Millionen Dokumentsamples – das System führt aktuell das wichtigste OCR-Benchmark an

Das Problem: Der KV-Cache-Engpass

Bisher scheiterten OCR-Systeme an einem technischen Engpass. Sprachmodelle speichern bei der Textgenerierung alle bereits verarbeiteten Tokens in einem KV-Cache – einem Puffer, auf den das Modell später zurückgreift. Bei mehrseitigen Dokumenten wächst dieser Cache linear mit jeder neuen Zeile. Das führt zu exponentiellem Speicherverbrauch und kontinuierlich sinkender Geschwindigkeit. Die praktische Lösung war bisher ein Loop: jede Seite einzeln verarbeiten, Cache zurücksetzen, nächste Seite – ineffizient und langsam.

Menschliches Vergessen als Vorbild

Baidu löst das Problem mit einer eleganten Analogie zur menschlichen Wahrnehmung. Wer ein Buch abschreibt, liest nicht ständig alles Geschriebene neu. Man konzentriert sich auf die Quelle, die letzten paar Zeichen und die nächste zu schreibende Stelle. Ältere Passagen verblassen durch eine Art "sanftes Vergessen".

Genau das macht R-SWA: Jeder neu generierte Token sieht zwar alle visuellen Referenz-Tokens und den Prompt – aber bei der Rückschau auf bereits generierte Ausgabe blickt er nur auf die letzten 128 Tokens zurück. Der KV-Cache bleibt dadurch konstant statt zu wachsen. Ein zusätzlicher Trick: Visuelle Tokens werden einmal kodiert und bleiben unverändert, statt durch laufende State-Changes zu verschwimmen.

Aspekt Bisherige Systeme Unlimited OCR
Seiten pro Pass ~10 Dutzende
KV-Cache-Wachstum Linear Konstant
Latenz über Dekodierungsschritte Steigend Flach

Architektur und Training

Unlimited OCR baut auf Deepseek OCR auf. Der DeepEncoder komprimiert ein 1024×1024-Pixel-PDF-Bild auf 256 Tokens herunter. Das Decoder-Netzwerk ist eine Mixture-of-Experts-Architektur mit drei Milliarden Parametern, von denen während der Inferenz nur etwa 500 Millionen aktiv sind – das spart Rechenzeit. Das Training nutzte rund zwei Millionen Dokumentsamples, aufgeteilt im Verhältnis 9:1 zwischen Ein- und Mehrseitendaten.

Was das für dich bedeutet

Die Nachricht ist vor allem für deutsche Unternehmen relevant, die mit Dokumentenverarbeitung arbeiten – Versicherungen, Behörden, Logistik, Finanzdienstleister. Ein System, das dutzende Seiten in einem Pass verarbeitet, könnte Batch-Verarbeitung deutlich schneller machen und den Speicherbedarf senken. Offen bleibt: Wie gut funktioniert Unlimited OCR mit deutschsprachigen Dokumenten und speziellen Formaten (Formulare, Tabellen)? Und wann wird das System öffentlich verfügbar? Baidu hat hier einen technischen Vorsprung demonstriert – deutsche und europäische Teams sollten das aufmerksam verfolgen.

Quellen

Redaktionell verantwortet von Ideal Syka. Quellen und Arbeitsweise: Redaktion & Methode. Hinweise und Korrekturen: ai@i6eal.de.

Teilen
← Alle Beiträge

Alle Analysen basieren auf eigenen Messungen von i6eal oder auf klar gekennzeichneten Quellen. Zahlen sind Momentaufnahmen und können sich ändern; Korrekturen weisen wir transparent aus.