CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een wiskundestudent hebt die een uitstekend geheugen heeft, maar geen echt inzicht.

Hij kan de definitie van een theorema (een wiskundige regel) perfect uit zijn hoofd opzeggen, net als een tekstboek. Maar zodra je hem een nieuw probleem geeft dat die regel vereist, faalt hij. Hij probeert het probleem op te lossen door te raden, door te zoeken naar oppervlakkige patronen (zoals "als er een breuk in staat, moet ik delen") in plaats van echt te begrijpen waarom die regel werkt.

Dit is precies het probleem dat de onderzoekers van dit paper (CORE) hebben ontdekt bij moderne kunstmatige intelligentie (LLMs). Ze zijn goed in het oplossen van standaardopgaven, maar faals als het gaat om echt conceptueel denken.

Hier is hoe ze dit oplossen, vertaald naar een eenvoudig verhaal:

1. Het Probleem: De "Zombie-Student"

De onderzoekers noemen dit de kloof tussen definitie en toepassing.

De Definitie: De AI kan zeggen: "De rationale wortelstelling zegt dat..." (perfect).
De Toepassing: Als je vraagt om een probleem op te lossen met die stelling, gebruikt de AI de verkeerde logica of raadt hij. Hij gedraagt zich als een zombie die de tekst herhaalt, maar niet begrijpt wat hij zegt.

2. De Oplossing: CORE (Concept-Oriented Reinforcement)

De onderzoekers hebben een nieuwe trainingsmethode bedacht, genaamd CORE. In plaats van de AI alleen te belonen als het eindantwoord goed is (zoals een leraar die alleen naar het cijfer kijkt), kijken ze nu naar het proces.

Ze gebruiken drie slimme trucs, die we kunnen vergelijken met een sportcoach die een atleet traint:

Truc 1: De "Concept-Quiz" (De Theorieles)

Stel je voor dat je een atleet niet alleen laat rennen, maar hem eerst dwingt om de regels van de sport te begrijpen.

De onderzoekers hebben een boek met wiskunderegels en bijbehorende quizvragen gemaakt.
Ze laten de AI deze quizzen maken. Als de AI faalt, krijgen ze te zien dat de AI de theorie wel kent, maar niet kan toepassen. Dit bevestigt dat er echt een probleem is.

Truc 2: De "Hint-Injectie" (CORE-CR)

Dit is de belangrijkste truc. Stel je voor dat de atleet een race verliest.

Normale training: De coach zegt: "Je hebt verloren, probeer het nog eens." (Dit helpt niet veel).
CORE-training: De coach zegt: "Stop! Je hebt de verkeerde techniek gebruikt. Hier is de specifieke regel die je nodig had. Probeer het nu opnieuw met die regel in gedachten."
In de computerwereld: Als de AI een fout maakt, stopt de training even. De computer voegt een korte tekst toe met de juiste wiskundige regel (het "concept") en zegt: "Probeer het antwoord opnieuw, maar gebruik deze regel." De AI leert dan dat het antwoord alleen goed is als het gebaseerd is op die regel.

Truc 3: De "Spiegel" (CORE-KL)

Soms is het niet genoeg om het antwoord te geven. Je moet de AI leren hoe te denken.

Stel je voor dat de coach de atleet een spiegel voorhoudt. "Kijk eens hoe een expert dit zou doen. Probeer je eigen gedachten te laten lijken op die van de expert."
De computer vergelijkt hoe de AI denkt zonder de hint, met hoe hij denkt met de hint. Hij straft de AI als hij zonder hint weer in de oude, slechte gewoonten vervalt. Hij dwingt de AI om zijn "denkproces" te herschrijven zodat het altijd past bij de juiste wiskundige regels.

3. Het Resultaat: Van "Raadspeler" naar "Denker"

Na deze training is de AI niet meer alleen maar een "naaier" die patronen nabootst.

Vroeger: Hij keek naar het probleem en dacht: "Dit lijkt op vraag 5 uit het boek, dus ik doe hetzelfde."
Nu: Hij denkt: "Dit probleem vereist het concept van 'lineaire onafhankelijkheid'. Ik moet die specifieke regel toepassen."

De resultaten tonen aan dat AI-modellen die met CORE zijn getraind, veel beter zijn in:

Nieuwe problemen oplossen die ze nog nooit hebben gezien (ze begrijpen de essentie, niet alleen de vorm).
Niet verward raken door afleidingen (als je de volgorde van de opties in een vraag verandert, blijven ze het juiste antwoord geven, in plaats van in paniek te raken).

Samenvattend

De onderzoekers hebben een manier gevonden om AI-modellen te dwingen om niet alleen het antwoord te onthouden, maar de logica erachter te begrijpen. Ze doen dit door de AI tijdens het trainen constant te herinneren aan de juiste wiskundige regels, zodat deze regels deel gaan uitmaken van zijn natuurlijke denkproces.

Het is alsof je een student niet alleen laat studeren voor het examen, maar hem leert hoe een wiskundige denkt. En dat maakt het verschil tussen een goede score en echt begrip.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: De Kloof tussen Definitie en Toepassing

Grote Taalmodellen (LLMs) zijn uitstekend geworden in het oplossen van complexe wiskundige opgaven, maar ze falen vaak wanneer het gaat om genuanceerd conceptueel begrip. Hoewel modellen vaak de juiste antwoorden kunnen genereren door oppervlakkige patronen te herkennen of numerieke berekeningen uit te voeren, missen ze het vermogen om de onderliggende wiskundige concepten correct te identificeren en toe te passen.

De auteurs identificeren twee hoofdoorzaken voor deze "definitie-toepassingskloof":

Oppervlakkige patronen: Modellen leren vaak oppervlakkige regulariteiten (zoals sleutelwoorden of stap-patronen) in plaats van de beoogde wiskundige concepten.
Grove beloningssignalen: Bestaande Reinforcement Learning met Verifieerbare Beloningen (RLVR) pipelines optimaliseren meestal alleen de einduitslag (juist/onjuist). Dit signaal is te grof om het model te vertellen welk concept er moet worden gebruikt, waar het in het argument moet worden ingebracht, of hoe het de volgende stappen ondersteunt.

Diagnostische tests tonen aan dat modellen definities vaak perfect kunnen opzeggen (parametrische kennis), maar falen bij quizvragen die vereisen dat ze die kennis flexibel toepassen. Ze blijven vastzitten in rigide patroonherkenning, zelfs wanneer ze het juiste concept kennen.

Methodologie: CORE Framework

Om deze kloof te overbruggen, introduceren de auteurs CORE (Concept-Oriented REinforcement). Dit is een RL-trainingframework dat expliciete wiskundige concepten omzet in een controleerbaar supervisie-signaal. Het framework is algoritme-onafhankelijk (gebaseerd op policy-gradient methoden zoals GRPO) en bestaat uit drie hoofdfasen:

1. Dataset Curation (Dataverzameling)

De auteurs hebben een hoogwaardige, menselijk geverifieerde corpus samengesteld uit het handboek Advanced Algebra (3rd Edition).

Bron: Een klassiek handboek dat logisch opbouwt van basisconcepten (zoals determinanten) naar geavanceerde onderwerpen (zoals lineaire ruimten).
Structuur: Elke hoofdstuk bevat conceptdefinities (C), voorbeelden en concept-gerelateerde oefeningen (E).
Contaminatievermindering: Het handboek is handmatig vertaald van Chinees naar Engels om het risico op data-contaminatie (waar het model de antwoorden al uit het trainingssetje kent) te minimaliseren.
Synthese: Er zijn 236 conceptteksten gebruikt om 1.110 hoogwaardige, synthetische "concept-probes" (meerkeuzequizzen) te genereren en te valideren.

2. Diagnostiek van de Kloof

Voordat het trainingsschema werd toegepast, werd een "sanity probe" uitgevoerd. Modellen konden definities correct opzeggen, maar faalden bij quizzen die concepttoepassing vereisten. Bovendien bleek hun prestatie drastisch te dalen bij robuustheidstests (waar de volgorde van antwoordopties werd gewijzigd), wat bewijst dat ze afhankelijk waren van oppervlakkige heuristieken in plaats van diep begrip.

3. Concept Reinforcement Recipe (Trainingsstrategieën)

CORE introduceert drie varianten om conceptuele redenering te versterken, allemaal gebaseerd op het GRPO-algoritme (Group Relative Policy Optimization):

CORE-Base (Standaard RL): Directe training op de gegenereerde concept-quizzen zonder extra ingrepen. Het model leert impliciet uit de vraag-antwoordparen.
CORE-CR (Concept-Guided Trajectory Replacement): Een conditionele ingreep. Als een groep van $N$ gegenereerde oplossingen allemaal fout is (conceptueel falen), wordt de prompt aangevuld met de relevante concepttekst. Het model genereert nieuwe, concept-gestuurde trajecten. Deze nieuwe trajecten vervangen de originele, foutieve trajecten in de batch en krijgen een extra beloning ( $r_{bonus}$ ). Dit forceert het model om te leren van concept-gestuurde correcties.
CORE-KL (Concept-Guided KL-Regularization): In plaats van trajecten te vervangen, wordt een Forward KL-divergentie term toegevoegd aan de loss-functie. Dit straft het model af als zijn standaard redeneerproces (zonder concept-prompt) afwijkt van het proces dat het zou volgen als het wel met het concept was geprikkeld. Dit dwingt het model om intern te leren hoe het concept toe te passen, zelfs zonder expliciete prompt tijdens de inferentie.

Belangrijkste Resultaten

De auteurs hebben CORE getest op diverse modellen (o.a. Qwen2-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B, Qwen2.5-Math-1.5B, en Llama-3-8B-Instruct).

In-domein prestaties: Op de tekstboek-quizzen (Textbook) en TheoremQA bood CORE tot 9,3% verbetering (Qwen2-Math-7B) ten opzichte van de Vanilla-baseline.
Out-of-domein generalisatie: De verbeteringen bleven behouden op diverse externe benchmarks (GSM8K, MATH, MMLU-STEM, SVAMP, TabMWP).
- Bijvoorbeeld: CORE-CR verbeterde DeepSeek-R1-DQ-1.5B met +1,3% op MMLU-STEM en +1,2% op SVAMP.
- Llama-3-8B-Instruct boekte tot +3,3% verbetering op TabMWP.
Robuustheid: Modellen getraind met CORE waren aanzienlijk robuuster tegen irrelevante conceptuele verstoringen (distractors). Terwijl standaardmodellen faalden bij het toevoegen van afleidende concepten, behielden CORE-modellen hun nauwkeurigheid.
Ablatie-studies:
- Willekeurige beloningen of het simpelweg verhogen van het aantal gegenereerde antwoorden (Top-k) leverden geen vergelijkbare verbeteringen op.
- De prestaties bleven zelfs sterk wanneer het framework volledig "zelf-supervised" was (geen extern "expert" model voor datageneratie), wat aantoont dat het mechanisme intrinsiek is en niet afhankelijk van kennisdistillatie van superieure modellen.
- CORE-CR presteerde beter dan een variant die gebruikmaakte van een "verifier" voor procesbeloning, wat suggereert dat expliciete concept-injectie effectiever is dan alleen procescontrole.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Kwantificering van de kloof: Het biedt een empirisch bewijs dat LLMs een significante kloof hebben tussen het kunnen opzeggen van definities en het toepassen ervan in probleemoplossing.
Nieuw RL-framework: CORE introduceert een methode om conceptuele supervisie in te bouwen in RL-training zonder de modelarchitectuur te wijzigen. Het combineert directe training op concept-quizzen met conditionele trajectvervanging en KL-regularisatie.
Algoritme-onafhankelijkheid: Het framework werkt als een wrapper rond bestaande policy-gradient algoritmen (zoals GRPO of PPO) en is dus breed toepasbaar.
Van oppervlakte naar diepte: Het bewijst dat het expliciet grondend van reinforcement learning in wiskundige concepten modellen kan transformeren van oppervlakkige patroonherkenners naar systemen met echt conceptueel redeneervermogen.

Conclusie:
CORE biedt een oplossing voor het fundamentele probleem dat LLMs wiskundige problemen oplossen door "trucs" te gebruiken in plaats van concepten te begrijpen. Door concepten als een controllable signaal in te bouwen tijdens de training, slaagt het framework erin om de redeneercompetentie van modellen structureel te verbeteren, wat leidt tot robuustere en diepere wiskundige vaardigheden die ook generaliseren naar nieuwe, ongeziene probleemtypen.