ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Dit paper introduceert ViRC, een framework dat multimodale wiskundige redenering verbetert door het menselijke probleemoplossingsproces na te bootsen via 'Reason Chunking' in kritieke redeneereenheden, ondersteund door het CRUX-dataset en een progressieve trainingsstrategie die leidt tot een aanzienlijke prestatieverbetering van het ViRC-7B-model.

Lihong Wang, Liangqi Li, Weiwei Feng, Jiamin Wu, Changtao Miao, Tieru Wu, Rui Ma, Bo Zhang, Zhe Li

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel moeilijk wiskundig raadsel probeert op te lossen, waarbij je naar een ingewikkelde tekening moet kijken.

Het oude probleem: De "Blinde" Rekenmachine
Vroeger waren slimme computers (AI) geweldig in tekst, maar als ze naar een wiskundige tekening keken, deden ze alsof ze blind waren. Ze keken één keer naar de hele tekening aan het begin en probeerden toen alleen met woorden te redeneren.

  • De analogie: Het is alsof je een grote, rommelige koffer met puzzelstukjes opent, één keer naar alles kijkt, en dan probeert de puzzel op te lossen zonder ooit weer in de koffer te kijken. Je vergeet snel details, of je mist een klein stukje dat cruciaal is.

De nieuwe oplossing: VIRC (De Slimme Puzzelaar)
De onderzoekers van dit paper hebben een nieuwe manier bedacht, genaamd VIRC. Ze laten de computer doen wat een slim mens doet: niet blindelings alles tegelijk proberen, maar stap voor stap werken in logische blokjes.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Chunking" Methode (De Lego-blokken)

In plaats van één lange, saaie redenering te schrijven, breken ze het probleem op in kleine, logische blokken. De paper noemt deze CRU's (Critical Reasoning Units).

  • De analogie: Stel je voor dat je een enorme muur moet bouwen. Een domme robot bouwt de hele muur in één keer zonder te kijken of de stenen goed liggen. Een slimme bouwer (onze AI) bouwt eerst één stevig blokje, controleert of dat goed zit, bouwt dan het volgende blokje, en kijkt weer.
  • Waarom? Dit helpt het geheugen van de computer. Net zoals mensen beter kunnen onthouden als ze informatie in groepjes verdelen (een trucje uit de psychologie dat "Miller's Law" heet).

2. De "Werkbank" (De Tools)

Tussen deze blokjes om, gebruikt de AI speciale hulpmiddelen om de tekening te bekijken. Het doet niet alsof het de hele tekening ziet, maar zoomt in op precies het stukje dat het nu nodig heeft.

  • De analogie: Stel je voor dat je een schilderij bekijkt met een vergrootglas.
    • Zoomen (Scale): Als het beeld te klein is, zoomt de AI in om de tekst beter te lezen.
    • Knippen (Crop): Als er veel rommel op de tekening staat, knipt de AI het relevante stukje uit en legt de rest weg.
    • Terugkijken (Display): Soms twijfelt de AI: "Wacht, zag ik dat getal wel goed?" Dan kijkt hij even terug naar de originele tekening om het te verifiëren.

3. De "Denk-Strategie" (De 4 Manieren van Denken)

De AI leert niet alleen te rekenen, maar ook hoe te denken. Ze gebruiken vier manieren van denken die mensen ook gebruiken:

  • Plannen: "Oké, eerst kijk ik naar de hele tekening en bedenk ik een plan."
  • Reflecteren: "Wacht, ik zit vast. Laten we even kijken wat we al deden."
  • Verifiëren: "Ik denk dat dit antwoord klopt, maar laten we het nog even controleren met de tekening."
  • Terugkrabbelen (Backtracking): "Oh nee, ik heb een fout gemaakt. Laten we terug naar het begin en het opnieuw proberen."

4. De School (Hoe ze het leren)

De AI wordt niet zomaar "in één keer" slim gemaakt. Ze doorloopt drie schooljaren:

  1. De Theorie (Instructional SFT): De AI leert eerst alleen de tekstuele structuur. "Zo bouw je een logisch blokje." (Zonder afleiding van plaatjes).
  2. De Oefening (Practice SFT): Nu krijgt de AI de plaatjes erbij. "Oké, nu pas je dat blokje toe op deze tekening en gebruik je je vergrootglas."
  3. De Meesterklas (Strategic RL): De AI krijgt de aller moeilijkste problemen. Als hij een slimme zet doet (zoals het juiste stukje inzoomen), krijgt hij een beloning. Als hij domme fouten maakt, leert hij daarvan.

Het Resultaat

Dankzij deze methode is de nieuwe AI (VIRC-7B) veel beter in wiskunde dan de oude modellen.

  • Het effect: Het is alsof je een student hebt die eerst een slechte leerling was (die alles in één keer probeerde), en nu een expert is die rustig stap voor stap werkt, zijn gereedschap slim gebruikt en nooit de details vergeet.

Kortom:
VIRC is een manier om computers te leren om wiskundige problemen op te lossen door ze op te delen in kleine, beheersbare stukjes, en slim te gebruiken wat ze zien, net als een menselijke expert. In plaats van te gissen, werken ze systematisch, stap voor stap.