Agentar-Fin-OCR

Das Paper stellt Agentar-Fin-OCR vor, ein auf Finanzdokumente zugeschnittenes OCR-System, das mittels fortschrittlicher Algorithmen zur Überbrückung von Seitengrenzen und tabellarischer Zelllokalisierung strukturierte Ausgaben erzeugt, und führt gleichzeitig FinDocBench als spezialisierten Benchmark für die Evaluierung ein.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, 500-seitigen Finanzbericht. Er ist voller Tabellen, die sich über mehrere Seiten erstrecken, Überschriften, die durch Seitenzahlen unterbrochen werden, und Zahlen, die so wichtig sind, dass man genau wissen muss, wo sie im Originaldokument stehen (für den Auditor).

Ein normales Computerprogramm, das versucht, dieses Dokument zu lesen, ist wie ein blinder Bibliothekar, der nur immer eine Seite nach der anderen betrachtet. Wenn eine Tabelle auf Seite 10 beginnt und auf Seite 11 weitergeht, denkt der Bibliothekar: „Oh, auf Seite 10 ist die Tabelle fertig, und auf Seite 11 fängt eine neue an." Das Ergebnis ist ein chaotisches Durcheinander, bei dem die Zusammenhänge verloren gehen.

Die Forscher von Ant Group haben nun Agentar-Fin-OCR entwickelt. Man kann sich dieses System wie einen super-intelligenten, geduldigen Finanz-Experten vorstellen, der nicht nur liest, sondern das gesamte Dokument als ein einziges Ganzes versteht.

Hier ist, wie das System funktioniert, einfach erklärt:

1. Der „Kleber" für zerrissene Seiten (Cross-page Consolidation)

Stellen Sie sich vor, Sie haben ein Puzzle, bei dem die Teile auf verschiedenen Tischen liegen. Ein normales Programm nimmt nur die Teile von einem Tisch.
Agentar-Fin-OCR hingegen holt alle Teile zusammen. Wenn eine Tabelle auf Seite 10 endet und auf Seite 11 weitergeht, erkennt das System: „Aha, das gehört zusammen!" Es schneidet störende Elemente wie Kopf- und Fußzeilen weg und fügt die Seiten nahtlos zusammen, als wären sie nie getrennt gewesen. So entsteht ein fließender Text, keine zerhackten Fragmente.

2. Der „Baumeister" für die Struktur (DHR-Modul)

Finanzdokumente haben eine strenge Hierarchie: Kapitel, Abschnitte, Unterabschnitte. Oft steht auf Seite 50 „Kapitel 3", aber die Überschrift dafür war auf Seite 2. Ein normales Programm verliert den Faden.
Das System baut sich eine digitale Landkarte (einen Inhaltsverzeichnis-Baum). Es schaut sich nicht nur den Text an, sondern auch, wie die Überschriften aussehen (Schriftgröße, Fettdruck) und wo sie stehen. So weiß es: „Das hier ist ein Hauptkapitel, das daneben ist nur ein kleiner Unterpunkt." Es stellt sicher, dass die logische Struktur des ganzen Dokuments erhalten bleibt, egal wie viele Seiten es hat.

3. Der „Schulmeister" für schwierige Tabellen (Curriculum Learning)

Tabellen in Finanzberichten sind oft extrem kompliziert (Zellen, die über mehrere Zeilen gehen, leere Felder, seltsame Linien).
Das System lernt wie ein Schüler in einer Schule:

  • Zuerst übt es mit einfachen Tabellen (leichtes Niveau).
  • Wenn es das kann, bekommt es immer schwierigere Tabellen (mittleres Niveau).
  • Am Ende meistert es die „Monster-Tabellen" (schweres Niveau).
    Durch dieses schrittweise Training (Curriculum Learning) wird es so gut, dass es selbst die verworrensten Tabellen perfekt in eine digitale Struktur umwandeln kann.

4. Der „Laser-Pointer" für die Genauigkeit (CellBBoxRegressor)

In der Finanzwelt reicht es nicht zu wissen, was in einer Tabelle steht. Man muss auch genau wissen, wo es steht, um es im Originaldokument zu überprüfen (Audit).
Stellen Sie sich vor, das System schreibt nicht nur die Zahlen ab, sondern klebt unsichtbare Etiketten auf jede einzelne Zelle in der Tabelle. Wenn Sie später auf eine Zahl klicken, kann das System sofort sagen: „Diese Zahl steht genau in Zeile 15, Spalte 4 auf Seite 42." Es braucht dafür keine zusätzlichen Kameras oder Scanner; es nutzt die interne Struktur des Dokuments selbst, um diese Positionen millimetergenau zu berechnen.

5. Der neue Prüfstein: FinDocBench

Bisher gab es keine gute Möglichkeit zu testen, ob diese Systeme wirklich gut für Finanzdokumente geeignet sind. Die Forscher haben daher FinDocBench geschaffen.
Stellen Sie sich das wie eine neue, extrem schwierige Fahrprüfung vor, die speziell für Finanzdokumente entwickelt wurde. Sie enthält alle Arten von Herausforderungen: extrem lange Dokumente, verwirrende Layouts und Tabellen, die sich über Seiten erstrecken. Nur Systeme, die diese Prüfung bestehen, gelten als zuverlässig für die Finanzwelt.

Zusammenfassung

Agentar-Fin-OCR ist wie ein digitaler Assistent, der:

  1. Zerrissene Seiten wieder zusammenklebt.
  2. Die logische Struktur (Kapitel/Unterkapitel) wiederherstellt.
  3. Durch schrittweises Üben schwierige Tabellen meistert.
  4. Jede einzelne Zahl mit einem genauen „Laser-Pointer" im Originaldokument verortet.

Das Ziel ist es, Finanzberichte so zu verarbeiten, dass sie für Computer maschinenlesbar, aber für Menschen (wie Prüfer) immer noch nachvollziehbar und überprüfbar sind. Es ist der Schlüssel, um aus einem riesigen Berg Papier digitale, vertrauenswürdige Daten zu machen.