FireRed-OCR Technical Report

In dit rapport presenteren we FireRed-OCR, een systematisch kader dat algemene Vision-Language Models omzet in hoogwaardige OCR-specialisten door middel van een 'Geometry + Semantics'-datafabriek en een drie-fasen trainingsstrategie, wat resulteert in state-of-the-art prestaties voor het nauwkeurig parseren van complexe documenten.

Hao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer intelligente, creatieve kunstenaar hebt die alles kan zien en beschrijven. Als je hem een foto van een bos laat zien, beschrijft hij prachtig de bomen en de vogels. Maar als je hem een ingewikkelde factuur, een wetenschappelijk artikel met formules of een krant met veel kolommen geeft, begint hij te "dromen". Hij schrijft misschien de juiste woorden, maar de volgorde is door elkaar, de tabellen hebben geen randjes, en wiskundige formules zijn onleesbaar. Dit noemen de auteurs "Structurele Hallucinaties". De kunstenaar begrijpt de betekenis, maar niet de regels van de opmaak.

FireRed-OCR is de oplossing van het team van Xiaohongshu om deze kunstenaar om te toveren tot een perfecte, regelgeleide administrateur. Hier is hoe ze dat deden, vertaald in alledaagse taal:

1. De "Geometrie + Semantiek" Data-Fabriek

Normaal gesproken leren computers door willekeurig voorbeelden te bekijken. Dat is alsof je een kok leert koken door hem alleen maar pizza's te laten zien, en dan plotseling een sushi-recept te geven. Het lukt niet goed.

Het FireRed-team bouwde een speciale fabriek om de beste lesmateriaal te maken:

  • De Geometrische Filter: In plaats van willekeurig te kiezen, kijken ze eerst naar de vorm van het document. Is het een rommelige krant? Een strakke factuur? Een ingewikkeld diagram? Ze groeperen deze vormen en zorgen dat de computer alle soorten "vormen" ziet, niet alleen de simpele.
  • De "Reinigingsmachine": Ze gebruiken slimme algoritmes en zelfs andere super-intelligente AI's om fouten in de lesmateriaal te vinden en te repareren. Als een voorbeeld een rare tabel heeft, wordt deze door een "expert" (een andere AI) opnieuw geschreven tot het perfect is. Zo leert de computer alleen maar van de allerbeste voorbeelden.

2. De Drie-Stappen Trainingsmethode

Je kunt een pasgeboren baby niet direct laten werken als een boekhouder. Je moet hem stap voor stap leren. FireRed-OCR gebruikt een drie-trapsraket:

  • Stap 1: De Oefeningen (Pre-alignment)
    Eerst leren ze de computer niet om direct een heel document te schrijven. Ze laten hem eerst oefenen met het vinden van woorden en het tekenen van kaders eromheen. Het is alsof je een kind eerst leert letters herkennen en op hun plek zetten, voordat je hem een heel verhaal laat schrijven.
  • Stap 2: De Strikte Schrijver (SFT)
    Nu de computer de letters kent, leren ze hem om te schrijven volgens de regels. Hij leert dat een tabel altijd vierkante vakjes moet hebben en dat een wiskundige formule precies zo moet klinken als in een schoolboek. Geen vrijblijvende dromen meer, maar strakke, machine-leesbare tekst.
  • Stap 3: De "Regel-Check" (GRPO)
    Dit is de slimste stap. Stel je voor dat de computer een opdracht krijgt en 10 verschillende antwoorden bedenkt. Een speciale "rechter" kijkt naar al die antwoorden.
    • Antwoord A: De tabel is scheef? Strafpunt.
    • Antwoord B: De wiskundige formule klopt niet? Strafpunt.
    • Antwoord C: Alles is perfect volgens de regels? Beloning.
      De computer leert hierdoor zelf te corrigeren. Hij probeert steeds vaker de "perfecte" versie te maken om de beloning te krijgen. Dit zorgt ervoor dat hij nooit meer vergeet om de randjes van een tabel te sluiten.

3. Het Resultaat: Een Kleine Reus

Het meest verbazingwekkende is dat dit systeem werkt met een klein model (slechts 2 miljard parameters), terwijl de concurrenten vaak enorme, zware modellen gebruiken (honderden miljarden parameters).

  • Vergelijking: Het is alsof FireRed-OCR een slimme, goed getrainde handelaar is die elke dag oefent met de juiste regels. De grote concurrenten zijn meer zoals geniale filosofen die alles begrijpen, maar soms vergeten hoe ze een formulier moeten invullen.
  • De Test: Op de zwaarste test (OmniDocBench), waar documenten vol zitten met rare tabellen, formules en tekst, scoort FireRed-OCR 92,94%. Dat is beter dan de grootste, duurste modellen ter wereld.

Samenvattend

FireRed-OCR is geen magie; het is discipline. Ze hebben een algemene kunstenaar (een AI) niet alleen laten "kijken", maar hem getraind in een fabriek met perfecte voorbeelden, laten oefenen in kleine stappen, en hem een strenge "rechter" gegeven die hem leert om zich aan de regels te houden. Het resultaat is een AI die niet alleen begrijpt wat er op een papier staat, maar het ook perfect kan overtypen in een digitaal formaat dat elke computer kan lezen.

Ze hebben hun code en modellen gratis beschikbaar gesteld, zodat iedereen deze "disciplinaire methode" kan gebruiken om hun eigen documenten digitaal te maken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →