FireRed-OCR Technical Report

Der Bericht stellt FireRed-OCR vor, ein systematisches Framework, das allgemeine Vision-Language-Modelle (basierend auf Qwen3-VL) durch eine innovative „Geometrie + Semantik"-Datenfabrik und eine dreistufige Progressive-Training-Strategie in hochpräzise OCR-Experten verwandelt, die auf dem OmniDocBench v1.5 State-of-the-Art-Ergebnisse erzielen.

Hao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

📄 Das Problem: Der „Träumer", der nicht aufhört zu halluzinieren

Stell dir vor, du hast einen sehr intelligenten Roboter (ein sogenanntes „Large Vision-Language Model" oder VLM), der alles auf der Welt sehen und verstehen kann. Er ist wie ein Super-Genie, das Bilder von Dokumenten anschaut und versucht, sie in Text umzuwandeln.

Das Problem ist: Dieses Genie ist oft zu kreativ. Wenn es ein komplexes Dokument sieht – etwa eine Tabelle mit vielen Spalten oder eine mathematische Formel – fängt es an zu träumen.

  • Es schreibt Zeilen in eine Tabelle, die gar nicht existieren.
  • Es vergisst, Klammern bei Formeln zu schließen.
  • Es liest den Text in der falschen Reihenfolge (erst unten, dann oben).

In der Technik nennt man das „Strukturelle Halluzination". Für einen Menschen ist das lustig, aber für eine Bank oder eine Kanzlei ist das katastrophal. Man kann keine Verträge mit einem Roboter unterschreiben, der sich Dinge ausdenkt.

🔥 Die Lösung: FireRed-OCR (Der „Feuer-Red"-Schmied)

Das Team von Xiaohongshu (bekannt als „Little Red Book") hat eine Lösung namens FireRed-OCR entwickelt. Stell dir das nicht als einen neuen, riesigen Roboter vor, sondern als einen Meister-Schmied, der aus einem allgemeinen Genie einen spezialisierten Handwerker macht.

Sie nehmen ein bestehendes, starkes Modell (Qwen3-VL) und schulen es neu, damit es nicht mehr „träumt", sondern präzise arbeitet.

Hier ist, wie sie das gemacht haben, in drei einfachen Schritten:

1. Die „Geometrie + Semantik"-Datenfabrik 🏭

Normalerweise trainiert man KI mit zufälligen Bildern. Das ist wie wenn man einem Koch zufällige Zutaten gibt und erwartet, dass er ein perfektes Gericht kocht.

  • Der Trick: FireRed-OCR baut eine Datenfabrik. Sie schauen sich nicht nur an, was auf dem Bild steht (Semantik), sondern auch, wie es aussieht (Geometrie).
  • Die Analogie: Stell dir vor, du sortierst Bücher nicht nach dem Titel, sondern nach dem Einband und der Form. Sie suchen gezielt nach seltenen, schwierigen Dokumenten (wie verwickelte Tabellen oder handgeschriebene Notizen), die andere KIs oft ignorieren. Sie „füttern" das Modell mit genau den Dingen, bei denen es sonst versagt.

2. Der dreistufige Ausbildungsplan 🎓

Statt das Modell einfach nur mit Text zu füttern, gehen sie es schrittweise an, wie man einen Lehrling ausbildet:

  • Stufe 1: Die Grundschule (Wahrnehmung): Zuerst lernt das Modell nur, wo etwas ist. „Hier ist ein Wort, hier ist eine Kante." Es lernt, genau hinzusehen, bevor es überhaupt versucht, ganze Sätze zu schreiben.
  • Stufe 2: Die Fachschule (Struktur): Jetzt lernt es, wie man Dokumente korrekt schreibt. Es übt, Tabellen so zu bauen, dass sie nicht in sich zusammenfallen, und Formeln so zu schreiben, dass sie mathematisch korrekt sind.
  • Stufe 3: Der Strenge Lehrer (Belohnung & Bestrafung): Das ist der coolste Teil. Sie nutzen eine Methode namens GRPO. Stell dir vor, der Roboter schreibt einen Text. Ein strenger Lehrer (ein Computer-Algorithmus) prüft sofort:
    • „Hast du die Tabelle geschlossen? Nein? Minus Punkte!"
    • „Ist die Formel mathematisch korrekt? Ja? Plus Punkte!"
    • Der Roboter lernt durch diese sofortige Rückmeldung, dass er sich an die Regeln halten muss. Er wird diszipliniert.

3. Das Ergebnis: Ein Spezialist statt eines Allrounder 🏆

Am Ende haben sie ein Modell, das nur 2 Milliarden Parameter groß hat (also relativ klein und schnell), aber auf Dokumenten besser ist als riesige Modelle mit hunderten Milliarden Parametern.

  • Der Vergleich: Es ist wie ein Schachgroßmeister, der nur Schach spielt, gegen einen General, der alles kann (Schach, Fußball, Kochen), aber beim Schach oft vergisst, wie die Figuren ziehen.
  • Der Test: Auf dem großen Test „OmniDocBench" (eine Art Olympiade für Dokumenten-KI) hat FireRed-OCR mit 92,94 % gewonnen. Es ist besser als die bisherigen Spitzenreiter wie DeepSeek-OCR 2.

💡 Warum ist das wichtig?

Früher musste man für jedes Dokument eine eigene Kette aus verschiedenen Programmen bauen (erst suchen, dann lesen, dann zusammenfügen). Das war kompliziert und fehleranfällig.

FireRed-OCR zeigt uns: Man braucht keine riesigen, unkontrollierten KI-Modelle. Wenn man ein gutes Modell mit den richtigen Daten füttert und es mit strengen Regeln diszipliniert, kann man einen kleinen, schnellen und extrem präzisen Spezialisten bauen, der Dokumente perfekt in digitale Formate umwandelt – ohne zu träumen.

Kurz gesagt: Sie haben aus einem träumenden Genie einen präzisen Handwerker gemacht, der keine Fehler macht, wenn es um Tabellen und Formeln geht. Und das Beste: Sie haben den Bauplan (den Code) für alle kostenlos veröffentlicht! 🔥📝