A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundige formule op een stuk papier ziet. Voor een mens is het vaak duidelijk: "Ah, dit is een breuk, en daarboven staat een macht." Maar voor een computer is dit een nachtmerrie.

Waarom? Omdat tekst (zoals een zin in een boek) lineair is: woord A, dan woord B, dan woord C. Maar wiskunde is twee-dimensionaal. Een getal kan boven een ander staan, er kan een klein getal rechtsboven staan (een macht), of er kan een breukstreep doorheen lopen. De computer moet niet alleen de symbolen herkennen, maar ook begrijpen hoe ze in de ruimte met elkaar verbonden zijn.

Dit artikel beschrijft een nieuwe manier om computers dit "wiskundige puzzel" te laten oplossen. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het oude probleem: De "Blinde" Scanner

Vroeger probeerden computers wiskunde te lezen in twee stappen:

Scheiding: Ze probeerden elk symbool los te snijden (zoals het uit elkaar halen van legoblokjes).
Structuur: Ze probeerden te raden hoe die blokjes weer in elkaar te passen.

Het probleem hiermee was dat de computer vaak de "grote lijn" miste. Als er een symbool ver weg staat van een ander symbool dat erbij hoort (bijvoorbeeld een haakje aan het begin en het eind van een lange formule), raakte de computer de draad kwijt. Het was alsof je een verhaal leest, maar je vergeet wat er aan het begin van de zin stond terwijl je bij het einde bent.

2. De nieuwe oplossing: De "Super-Scanner" (Hybrid Vision Transformer)

De auteurs van dit paper hebben een nieuw systeem bedacht dat ze een Hybrid Vision Transformer (HVT) noemen. Laten we dit vergelijken met een team van detectives die een complex schilderij analyseren.

Deel A: De Basis (De CNN)

Eerst kijken ze naar het plaatje met een "normale" camera (een CNN). Dit is als een ervaren schilder die eerst de grote vormen ziet: "Hier is een breuk, hier is een integraal." Dit zorgt voor een goed overzicht, maar mist soms de fijne details.

Deel B: De "Alles-Zien" Bril (De Vision Transformer)

Hier komt de magie. Ze gebruiken een technologie die Vision Transformer (ViT) heet.

De Analogie: Stel je voor dat je een groep mensen in een zaal hebt. Een oude computer zou ze één voor één bekijken (eerst links, dan rechts). De Vision Transformer kijkt echter naar iedereen tegelijk.
Hoe het werkt: Het systeem verdeelt de wiskundige formule in kleine stukjes (zoals een raam met ruitjes). Het kijkt dan naar elk stukje en vraagt zich af: "Hoe verhoudt dit stukje zich tot alle andere stukjes in het hele plaatje?"
Het resultaat: Het systeem ziet direct dat een klein 'x' rechtsboven een macht is van een 'a' links onder, zelfs als ze meters (of pixels) uit elkaar lijken te staan. Dit lost het probleem van de "vergeetachtige" computer op.

Deel C: De 2D-Compass (2D Positional Encoding)

Omdat wiskunde zowel horizontaal als verticaal werkt, geven ze de computer een speciale "2D-compas". In plaats van alleen te weten "dit is het 5e woord", weet de computer nu ook: "dit is het 5e woord, maar het staat boven op het 3e woord." Dit helpt de computer de ruimtelijke structuur perfect te begrijpen.

3. De Vertaler (De Decoder)

Nu de computer de formule goed heeft "gezien" en begrepen, moet hij de formule vertalen naar LaTeX (de taal die wetenschappers gebruiken om wiskunde te typen).

De [CLS]-Token: In het systeem zit een speciaal symbool, de [CLS]-token. Denk hierbij aan de hoofdinspecteur die het hele schilderij heeft bekeken. Deze inspecteur geeft de vertaler (de decoder) een samenvatting van alles wat hij heeft gezien voordat de vertaling begint. Hierdoor begint de vertaler niet met een lege hersenen, maar met een goed beeld van de context.
Coverage Attention (De "Oogst"-lijst): Een groot probleem bij het vertalen van formules is dat computers soms dingen vergeten (te weinig lezen) of dingen dubbel tellen (te veel lezen).
- De Analogie: Stel je voor dat je een lange lijst afvinkt. De "Coverage Attention" is als een checklist die bijhoudt welke stukjes van de formule je al hebt vertaald. Als de computer probeert een symbool te vertalen dat hij al eerder heeft gezien, zegt de checklist: "Hé, dat heb je al gedaan, ga naar het volgende!" Dit voorkomt dat de computer in de war raakt bij lange formules.

4. Wat was het resultaat?

De auteurs hebben hun systeem getest op een enorme verzameling van 100.000 wiskundige formules (de IM2LATEX-100K dataset).

De score: Hun systeem scoorde extreem hoog (een BLEU-score van 89,94). Dit betekent dat de vertalingen bijna perfect waren.
Vergelijking: Het deed het beter dan alle eerdere methoden. Het was alsof ze een nieuwe auto bouwden die niet alleen sneller rijdt, maar ook beter kan parkeren in smalle straten dan de vorige modellen.

Samenvatting in één zin

Dit paper introduceert een slimme computer die wiskundige formules leest door eerst het hele plaatje tegelijk te analyseren (zodat hij de ruimtelijke relaties ziet) en daarna een checklist bijhoudt om zeker te weten dat hij niets vergeet of dubbel telt, waardoor hij wiskunde bijna perfect kan vertalen naar tekst.

Het is een stap dichterbij dat computers onze wetenschappelijke documenten net zo makkelijk kunnen begrijpen als wijzelf.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het herkennen van wiskundige expressies (Mathematical Expression Recognition - MER) is een van de meest uitdagende taken binnen documentanalyse. In tegenstelling tot standaard tekstherkenning, die zich richt op een één-dimensionale structuur, hebben wiskundige formules een complexe twee-dimensionale ruimtelijke structuur. Symbolen kunnen superscript, subscript, breuken en andere hiërarchische relaties hebben, waarbij gerelateerde symbolen ver uit elkaar kunnen staan in de afbeelding.

Traditionele benaderingen gebruiken vaak twee fasen: segmentatie van karakters gevolgd door structurele analyse. Recentere methoden gebruiken Sequence-to-Sequence (Seq2Seq) architecturen, maar deze hebben vaak beperkingen:

CNN-gebaseerde modellen: Hebben vaak een gebrek aan globale informatie, wat noodzakelijk is om de ruimtelijke relaties tussen ver uit elkaar liggende symbolen te modelleren.
RNN/LSTM-gebaseerde modellen: Kunnen een bottleneck vormen door hun sequentiële aard en hebben moeite met het modelleren van lange-afhang afhankelijkheden.
Positie-informatie: Wiskundige formules vereisen zorgvuldige bewaring van 2D-positie-informatie (nesting, hiërarchie), wat standaard 1D-positional encoding niet optimaal doet.

Methodologie

De auteurs stellen een nieuw Hybrid Vision Transformer (HVT) framework voor dat een Seq2Seq-architectuur gebruikt, bestaande uit een encoder en een decoder.

1. Encoder: Hybrid Vision Transformer (HVT)

De encoder is ontworpen om zowel lokale features als globale context te combineren:

Backbone (ResNet): Een CNN (ResNet-gebaseerd) wordt gebruikt als eerste laag om de invoerafbeelding om te zetten in hoog-niveau feature maps. Dit lost het probleem op dat ViT's vaak veel data nodig hebben om lokale patronen te leren (gebrek aan inductieve bias) en verkleint de invoer voor de transformer.
Context Modeling (ViT Blocks): De feature maps worden omgezet in "patches" en vervolgens verwerkt door meerdere Vision Transformer (ViT) blokken. Deze blokken gebruiken Multi-Head Self-Attention (MHSA) om globale relaties tussen alle symbolen in de formule te modelleren, ongeacht hun afstand.
2D Positional Encoding (2DPE): In plaats van standaard 1D-encoding, gebruiken de auteurs een aangepaste 2D sinusoidale positional encoding. Dit behoudt zowel verticale als horizontale ruimtelijke informatie, wat cruciaal is voor de hiërarchische structuur van wiskundige formules.
[CLS] Token: Een leerbaar [CLS]-token wordt toegevoegd aan de patch-embeddings. Na verwerking door de ViT-blokken bevat dit token een globale representatie van de gehele afbeelding.

2. Decoder: Coverage Attention

De decoder is verantwoordelijk voor het genereren van de LaTeX-sequentie:

Initiële Toestand: In plaats van de volledige output van de encoder te gebruiken, wordt de embedding van het [CLS]-token gebruikt als de initiële verborgen staat ( $s_0$ ) van de decoder. Dit versnelt het proces en levert een compacte globale context.
Coverage Attention: Om problemen met "under-parsing" (onderverwerking) en "over-parsing" (oververwerking) aan te pakken, wordt een coverage vector geïntegreerd. Deze vector houdt de geschiedenis van de aandachtswaarden bij en helpt de decoder om te focussen op nog niet-geanalyseerde gebieden van de afbeelding.
Architectuur: De decoder gebruikt een unidirectionele LSTM met attention-mechanisme, waarbij de contextvector wordt berekend op basis van de annotatievectoren (uit de encoder) en de coverage vector.

Belangrijkste Bijdragen

Hybrid Vision Transformer Encoder: Een nieuwe aanpak die de sterke punten van CNN's (lokale feature extractie) combineert met ViT's (globale context en lange-afhang afhankelijkheden) specifiek voor wiskundige expressies.
Geoptimaliseerd Seq2Seq Framework: Een herontwerp van zowel de encoder (met 2DPE en ViT) als de decoder (met Coverage Attention en [CLS] initialisatie) om de specifieke uitdagingen van MER aan te pakken.
State-of-the-Art Resultaten: Het bereiken van nieuwe records op het IM2LATEX-100K dataset.
Uitgebreide Analyse: Gedetailleerde ablatiestudies die het belang van elke component (ResNet vs. VGG, ViT-2D vs. ViT-1D, Coverage Attention, [CLS] token) aantonen.

Resultaten

De methode is getest op het IM2LATEX-100K dataset (103.556 wiskundige expressies). De resultaten tonen een significante verbetering ten opzichte van bestaande State-of-the-Art (SOTA) methoden:

BLEU-4 Score: 89.94 (vergeleken met 89.72 voor Global Context [10] en 89.4 voor Double Attention [9]).
Exact Match Accuracy (Image): 86.48% (een verbetering van ongeveer 2.4% ten opzichte van de vorige beste methode).
Ablatie Studies:
- Het gebruik van ResNet in plaats van VGG als backbone verbeterde de nauwkeurigheid met 15%.
- ViT-2D (met 2D-positional encoding) presteerde aanzienlijk beter dan ViT-1D of BiLSTM, wat het belang van het behoud van de 2D-structuur bevestigt.
- Het gebruik van de [CLS]-token als initiële staat voor de decoder resulteerde in een BLEU-score van 89.94 versus 81.73 zonder deze token.
- Coverage Attention bleek essentieel voor het verminderen van parsing-fouten.

Betekenis en Toekomst

Dit onderzoek is significant omdat het de beperkingen van puur CNN-gebaseerde modellen voor wiskundige herkenning doorbreekt door de kracht van Vision Transformers te benutten voor het modelleren van complexe ruimtelijke relaties. De introductie van 2D-positional encoding en het gebruik van het [CLS]-token als globale context bieden een robuustere oplossing voor lange en complexe formules.

De auteurs concluderen dat hun model een nieuwe SOTA bereikt heeft, maar wijzen ook op beperkingen: het model mist nog specifieke grammaticale kennis, wat soms leidt tot syntactische fouten ondanks correcte symbolenherkenning. Toekomstig werk richt zich op het integreren van synthetische LaTeX-informatie om de grammaticale structuur verder te verbeteren en het ontwikkelen van een compleet product voor gebruikers.