Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten Roboter, der Dokumente lesen und in strukturierte Texte umwandeln kann. Auf dem Computerbildschirm, wo die Dokumente perfekt, scharf und gerade liegen, ist dieser Roboter ein Genie. Er erreicht fast 100 % Genauigkeit.

Aber was passiert, wenn Sie ihm ein echtes, physisches Dokument geben?
Stellen Sie sich vor, Sie halten ein Buch in der Hand, das sich am Buchrücken wölbt. Oder Sie fotografieren ein Dokument mit dem Handy unter einer schiefen Lampe. Oder Sie machen ein Foto von einem Bildschirm, auf dem ein Dokument angezeigt wird, und das Foto hat diese nervigen, welligen Muster (Moiré-Effekt).

In der echten Welt sind Dokumente selten perfekt. Und genau hier scheitern die meisten dieser KI-Roboter katastrophal, obwohl sie auf dem Computer so gut sind.

Das Problem: Die „Lüge des perfekten Bildschirms"
Bisherige Tests haben den Robotern nur „geborene digitale" Dokumente gezeigt – also Dateien, die nie ein echtes Papier berührt haben. Das ist, als würde man einen Autofahrer nur auf einer leeren, perfekt asphaltierten Rennstrecke testen und dann erwarten, dass er auch bei Glatteis, in einer Baustelle und im Stau sicher fährt. Die Tests zeigten, dass die KI super ist, aber sie sagten nichts darüber, ob sie im echten Leben überleben würde.

Die Lösung: Real5-OmniDocBench
Die Autoren dieses Papers haben eine brillante Idee gehabt: Sie haben die perfekte digitale Testbibliothek (OmniDocBench) genommen und sie physisch nachgebaut.

Stellen Sie sich das so vor:

Sie nehmen 1.355 digitale Dokumentseiten.
Sie drucken jede einzelne Seite mit einem High-End-Drucker aus.
Dann machen sie mit diesen Papierseiten genau das, was im echten Leben schiefgehen kann:
- Scannen: Sie scannen sie ein, aber mal schief, mal mit einem Heftclip, mal wie ein gebundenes Buch.
- Verbiegen (Warping): Sie knüllen das Papier, falten es, rollen es zu einer Röhre oder machen es zu einem „Hundsohr" an der Ecke.
- Bildschirm-Fotografie: Sie fotografieren die Seite von einem Laptop, einem Tablet oder einem Handy ab (mit allen typischen Reflexionen und Pixelmustern).
- Licht: Sie beleuchten das Papier mit einer Taschenlampe, werfen Schatten darauf oder färben das Licht rot/blau.
- Verzerrung (Skew): Sie halten das Handy schief und machen ein Foto, sodass das Dokument perspektivisch verzerrt aussieht.

Das Ergebnis ist ein riesiger Datensatz mit über 6.700 Bildern. Das Besondere daran: Da sie von denselben digitalen Vorlagen stammen, wissen sie exakt, wie das Ergebnis sein sollte. Sie können also genau messen, wo und warum die KI scheitert. Ist es das Licht? Ist es die Verzerrung? Oder ist die KI einfach dumm?

Was sie herausfanden (Die Überraschung)
Als sie verschiedene KI-Modelle an diesem harten Test teilnahmen, passierte etwas Unerwartetes:

Der Riese ist nicht immer der Stärkste: Die riesigen, allgemeinen KI-Modelle (die wie Supercomputer mit Milliarden von Parametern sind) schnitten gut ab, aber nicht immer perfekt. Sie waren wie ein Generalist, der alles ein bisschen kann, aber bei spezifischen physikalischen Problemen (wie einem geknickten Papier) ins Straucheln kam.
Der Spezialist gewinnt: Ein kleineres, spezialisiertes Modell namens PaddleOCR-VL-1.5 (mit nur 0,9 Milliarden Parametern – also winzig im Vergleich zu den Giganten) gewann den Wettbewerb. Es war robuster, schneller und machte weniger Fehler bei den verzerrten Papieren.

Die Metapher:
Stellen Sie sich vor, Sie testen zwei Ärzte.

Der eine ist ein weltberühmter Generalist, der alles über die menschliche Biologie weiß (der große KI-Modell). Er kennt die Theorie perfekt.
Der andere ist ein praktizierender Hausarzt, der jeden Tag mit schmutzigen Wunden, schlechtem Licht und unkooperativen Patienten zu tun hat (das spezialisierte Modell).

Wenn Sie den Generalisten bitten, eine Wunde in einer dunklen Höhle zu nähen, zögert er vielleicht, weil er nur im hellen OP-Operationssaal trainiert wurde. Der Hausarzt hingegen hat genau dafür trainiert und macht die Arbeit besser, obwohl er weniger „Wissen" im Kopf hat.

Warum ist das wichtig?
Dieser Test (Real5-OmniDocBench) ist wie ein „Stress-Test" für Dokumenten-KIs. Er zeigt uns, dass wir nicht einfach nur KI-Modelle größer machen müssen, um sie besser zu machen. Stattdessen müssen wir sie so trainieren, dass sie die Unordnung der echten Welt verstehen.

Die Botschaft ist klar: Eine KI, die auf dem Bildschirm perfekt ist, ist noch lange keine KI, die in der echten Welt funktioniert. Um wirklich robuste Systeme zu bauen, müssen wir sie mit dem „Schmutz und Chaos" des echten Lebens konfrontieren – genau wie dieser neue Test es tut.

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Technische Zusammenfassung: Real5-OmniDocBench

Mehr davon

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization