[{"data":1,"prerenderedAt":28},["ShallowReactive",2],{"nr-de-baidu-unlimited-ocr-dozens-pages":3},{"slug":4,"title":5,"dek":6,"date":7,"time":8,"publishedAt":9,"updated":10,"updatedAt":10,"dateFmt":11,"updatedFmt":10,"kind":12,"tier":13,"author":14,"authorName":15,"topics":16,"tracker":10,"trackerLabel":10,"headlineStat":22,"image":23,"ogImage":24,"imageAlt":5,"csv":10,"minutes":25,"words":26,"html":27},"baidu-unlimited-ocr-dozens-pages","Baidu knackt OCR-Bottleneck: Dutzende Seiten in einem Pass","Chinesische Forscher haben ein Dokumenten-Erkennungssystem entwickelt, das die bisherige Zehn-Seiten-Grenze sprengt. Ein modifizierter Attention-Mechanismus hält den Speicherverbrauch konstant.","2026-07-05","18:31","2026-07-05T18:31:00+02:00","","5. Juli 2026","news","standard","ideal-syka","Ideal Syka",[17,18,19,20,21],"OCR","Dokumentenerkennung","Attention-Mechanismus","KI-Architektur","Baidu","Dutzende Seiten statt zehn pro Pass","\u002Fnewsroom\u002Fimg\u002Fbaidu-unlimited-ocr-dozens-pages.webp","\u002Fog-nr\u002Fbaidu-unlimited-ocr-dozens-pages.de.png",3,504,"\u003Cp>Baidu-Forscher haben ein OCR-Modell entwickelt, das dutzende Dokumentseiten in einem einzigen Inferenz-Durchgang verarbeitet – während bisherige Systeme bei etwa zehn Seiten stoppen mussten. Das System heißt \u003Cstrong>Unlimited OCR\u003C\u002Fstrong> und nutzt einen neuartigen Attention-Mechanismus namens \u003Cstrong>Reference Sliding Window Attention (R-SWA)\u003C\u002Fstrong>, um Speicher und Verarbeitungsgeschwindigkeit konstant zu halten, unabhängig von der Textmenge.\u003C\u002Fp>\n\u003Ch2>Kurz &amp; knapp\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Cstrong>Unlimited OCR\u003C\u002Fstrong> verarbeitet \u003Cstrong>dutzende Seiten\u003C\u002Fstrong> in einem Pass, während bisherige Systeme bei etwa \u003Cstrong>zehn Seiten\u003C\u002Fstrong> stoppen\u003C\u002Fli>\n\u003Cli>Der Kern der Innovation: \u003Cstrong>R-SWA\u003C\u002Fstrong> hält den KV-Cache (Key-Value-Cache) auf konstanter Größe, statt ihn linear wachsen zu lassen\u003C\u002Fli>\n\u003Cli>Baidu nutzt als Basis das Open-Source-Modell \u003Cstrong>Deepseek OCR\u003C\u002Fstrong> und paart es mit einer Mixture-of-Experts-Architektur (\u003Cstrong>3 Milliarden Parameter\u003C\u002Fstrong>, davon \u003Cstrong>500 Millionen aktiv\u003C\u002Fstrong>)\u003C\u002Fli>\n\u003Cli>Training mit etwa \u003Cstrong>zwei Millionen Dokumentsamples\u003C\u002Fstrong> – das System führt aktuell das wichtigste OCR-Benchmark an\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Ch2>Das Problem: Der KV-Cache-Engpass\u003C\u002Fh2>\n\u003Cp>Bisher scheiterten OCR-Systeme an einem technischen Engpass. Sprachmodelle speichern bei der Textgenerierung alle bereits verarbeiteten Tokens in einem \u003Cstrong>KV-Cache\u003C\u002Fstrong> – einem Puffer, auf den das Modell später zurückgreift. Bei mehrseitigen Dokumenten wächst dieser Cache linear mit jeder neuen Zeile. Das führt zu exponentiellem Speicherverbrauch und kontinuierlich sinkender Geschwindigkeit. Die praktische Lösung war bisher ein Loop: jede Seite einzeln verarbeiten, Cache zurücksetzen, nächste Seite – ineffizient und langsam.\u003C\u002Fp>\n\u003Ch2>Menschliches Vergessen als Vorbild\u003C\u002Fh2>\n\u003Cp>Baidu löst das Problem mit einer eleganten Analogie zur menschlichen Wahrnehmung. Wer ein Buch abschreibt, liest nicht ständig alles Geschriebene neu. Man konzentriert sich auf die Quelle, die letzten paar Zeichen und die nächste zu schreibende Stelle. Ältere Passagen verblassen durch eine Art &quot;sanftes Vergessen&quot;.\u003C\u002Fp>\n\u003Cp>Genau das macht \u003Cstrong>R-SWA\u003C\u002Fstrong>: Jeder neu generierte Token sieht zwar alle visuellen Referenz-Tokens und den Prompt – aber bei der Rückschau auf bereits generierte Ausgabe blickt er nur auf die \u003Cstrong>letzten 128 Tokens\u003C\u002Fstrong> zurück. Der KV-Cache bleibt dadurch konstant statt zu wachsen. Ein zusätzlicher Trick: Visuelle Tokens werden einmal kodiert und bleiben unverändert, statt durch laufende State-Changes zu verschwimmen.\u003C\u002Fp>\n\u003Cdiv class=\"tbl-scroll\">\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>Aspekt\u003C\u002Fth>\n\u003Cth>Bisherige Systeme\u003C\u002Fth>\n\u003Cth>Unlimited OCR\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\u003Ctr>\n\u003Ctd>Seiten pro Pass\u003C\u002Ftd>\n\u003Ctd>~10\u003C\u002Ftd>\n\u003Ctd>Dutzende\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>KV-Cache-Wachstum\u003C\u002Ftd>\n\u003Ctd>Linear\u003C\u002Ftd>\n\u003Ctd>Konstant\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>Latenz über Dekodierungsschritte\u003C\u002Ftd>\n\u003Ctd>Steigend\u003C\u002Ftd>\n\u003Ctd>Flach\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\u003C\u002Ftable>\u003C\u002Fdiv>\n\u003Ch2>Architektur und Training\u003C\u002Fh2>\n\u003Cp>Unlimited OCR baut auf \u003Cstrong>Deepseek OCR\u003C\u002Fstrong> auf. Der \u003Cstrong>DeepEncoder\u003C\u002Fstrong> komprimiert ein 1024×1024-Pixel-PDF-Bild auf 256 Tokens herunter. Das Decoder-Netzwerk ist eine \u003Cstrong>Mixture-of-Experts-Architektur\u003C\u002Fstrong> mit drei Milliarden Parametern, von denen während der Inferenz nur etwa 500 Millionen aktiv sind – das spart Rechenzeit. Das Training nutzte rund zwei Millionen Dokumentsamples, aufgeteilt im Verhältnis 9:1 zwischen Ein- und Mehrseitendaten.\u003C\u002Fp>\n\u003Ch2>Was das für dich bedeutet\u003C\u002Fh2>\n\u003Cp>Die Nachricht ist vor allem für deutsche Unternehmen relevant, die mit Dokumentenverarbeitung arbeiten – Versicherungen, Behörden, Logistik, Finanzdienstleister. Ein System, das dutzende Seiten in einem Pass verarbeitet, könnte Batch-Verarbeitung deutlich schneller machen und den Speicherbedarf senken. Offen bleibt: Wie gut funktioniert Unlimited OCR mit deutschsprachigen Dokumenten und speziellen Formaten (Formulare, Tabellen)? Und wann wird das System öffentlich verfügbar? Baidu hat hier einen technischen Vorsprung demonstriert – deutsche und europäische Teams sollten das aufmerksam verfolgen.\u003C\u002Fp>\n\u003Ch2>Quellen\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Ca href=\"https:\u002F\u002Fthe-decoder.com\u002Fbaidus-unlimited-ocr-processes-dozens-of-document-pages-in-one-pass-by-treating-memory-like-human-forgetting\u002F\">The Decoder\u003C\u002Fa>\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Cp>\u003Cem>Redaktionell verantwortet von \u003Ca href=\"\u002Fautor\u002Fideal-syka\">Ideal Syka\u003C\u002Fa>. Quellen und Arbeitsweise: \u003Ca href=\"\u002Fredaktion\">Redaktion &amp; Methode\u003C\u002Fa>. Hinweise und Korrekturen: \u003Ca href=\"mailto:ai@i6eal.de\">ai@i6eal.de\u003C\u002Fa>.\u003C\u002Fem>\u003C\u002Fp>\n",1783276594971]