Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom slimme AI's niet altijd slim zijn in nieuwe situaties

Stel je voor dat je een fantastische kok hebt die gespecialiseerd is in het maken van perfecte pizza's. Deze kok is zo goed geworden door duizenden uren te oefenen met pizza's. Als je hem vraagt om een pizza te maken, levert hij een meesterwerk af. Maar wat gebeurt er als je hem vraagt om een taart te bakken, of zelfs maar een salade te maken?

Dit is precies wat deze nieuwe studie van onderzoekers van de Universiteit van Illinois ontdekt over de nieuwste generatie kunstmatige intelligentie (AI), die we "Large Language Models" noemen.

De "Super-trainer" voor AI

De afgelopen tijd hebben onderzoekers een nieuwe methode ontwikkeld om AI's slimmer te maken, genaamd Reinforcement Post-Training (RPT). Je kunt dit vergelijken met een super-trainer die een atleet (de AI) laat oefenen met specifieke taken, zoals wiskundeproblemen oplossen of code schrijven. De trainer geeft direct feedback: "Goed gedaan!" of "Fout, probeer het anders."

Na deze training zijn deze AI's ongelooflijk goed geworden in de specifieke dingen waar ze voor getraind zijn. Ze kunnen wiskundige raadsels oplossen die zelfs voor mensen lastig zijn, en ze schrijven computerprogramma's alsof het niets is.

De Grote Vraag: Is deze slimheid overdraagbaar?

De onderzoekers vroegen zich af: Is deze extra slimheid iets dat de AI meeneemt naar alle nieuwe situaties, of is het alleen maar goed voor de specifieke taken waarvoor hij getraind is?

Stel je voor dat je een atleet traint om een marathon te lopen. Als je hem daarna vraagt om een zwemwedstrijd te doen, zal hij waarschijnlijk niet beter zijn dan een gemiddelde mens, alleen omdat hij een marathonloper is. De vraag is: werkt het voor AI hetzelfde?

Wat hebben ze ontdekt?

De onderzoekers hebben twee soorten experimenten gedaan, net als in een wetenschappelijk lab:

De Observatie (Kijken naar bestaande AI's): Ze hebben 18 verschillende AI-modellen gekeken die al getraind waren. Sommige waren getraind op wiskunde, andere op programmeren, en weer andere op juridische of medische vragen.
- Het resultaat: De AI's die getraind waren op wiskunde, werden nog slimmer in wiskunde, maar werden vaak slechter in andere dingen, zoals het beantwoorden van medische vragen. Het was alsof de atleet die alleen marathonloopt, probeert te zwemmen en dan verdrinkt.
De Interventie (Zelf trainen): Om zeker te zijn, trainden ze zelf drie AI's. Eén alleen op wiskunde, één alleen op programmeren, en één alleen op algemene kennis (zoals geschiedenis of recht).
- Het resultaat: Dit bevestigde hun vermoeden.
  - Wiskunde en Programmeren zijn "broers": Als je een AI traint op wiskunde, wordt hij ook beter in programmeren (en andersom). Dit komt omdat beide taken een soortgelijk "strakke" manier van denken vereisen: stap-voor-stap logica, net als het oplossen van een puzzel.
  - Maar "Losse" kennis is anders: Als je een AI traint op wiskunde, wordt hij niet beter in juridische of medische vragen. Deze vragen vereisen een ander soort denken: het interpreteren van context, het begrijpen van nuances en het omgaan met onduidelijkheid. Het is alsof je een atleet vraagt om van hardlopen over te schakelen op het spelen van een instrument; de spierkracht helpt niet echt.
  - Omgekeerd werkt het soms wel: Curieus genoeg, als je een AI traint op complexe, "losse" kennis (zoals medische teksten), wordt hij soms wel iets beter in wiskunde. Alsof het brein dat is getraind om complexe verhalen te begrijpen, ook beter wordt in het oplossen van strakke puzzels.

De Belangrijkste Conclusie

Deze studie laat zien dat AI's niet universeel slimmer worden door deze nieuwe trainingsmethoden.

Het is geen "magische stof": Het maakt een AI niet automatisch slimmer in alles.
Het is "specifiek": De verbeteringen blijven vaak beperkt tot het soort denken dat in de trainingsdata zat. Als je een AI traint op strakke logica (wiskunde/code), wordt hij daar een genie in, maar hij blijft een "normale" atleet in andere gebieden.
Het kan zelfs averechts werken: Soms wordt een AI zelfs slechter in andere taken omdat hij te veel is gaan focussen op de specifieke regels van zijn training (overfitting).

Wat betekent dit voor de toekomst?

Dit is geen slecht nieuws, maar wel een belangrijke waarschuwing. Het betekent dat als we AI's willen gebruiken voor complexe taken in de echte wereld (zoals een arts helpen of een advocaat), we ze niet zomaar kunnen "trainen" op wiskundeproblemen en hopen dat ze dan ook goed zijn in juridische redenering.

We moeten AI's specifiek trainen voor het soort denken dat we nodig hebben. Net zoals je een atleet niet kunt verwachten om zowel olympisch te zwemmen als te springen zonder specifieke training voor beide, moeten we AI's ook specifiek trainen voor de specifieke taken die we van hen verwachten.

Kortom: AI wordt niet automatisch een alleskunner; het wordt een specialist, en die specialisatie werkt niet altijd overal.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Reinforcement Post-Training (RPT), en specifiek Reinforcement Learning met Verifieerbare Beloningen (RLVR), heeft recentelijk aanzienlijke verbeteringen in het redeneervermogen van Large Language Models (LLMs) bewezen, vooral op gebieden zoals wiskunde en coderen. Echter, de huidige evaluatiekaders beperken zich vaak tot het testen van deze modellen op data uit dezelfde domeinen als die gebruikt zijn voor het post-training proces.

De kernvraag die dit paper adresseert is: Generaliseren de prestatieverbeteringen door RPT naar onbekende domeinen (out-of-domain)? Bestaande modellen worden vaak getraind op gemengde datasets, wat het moeilijk maakt om te bepalen of verbeteringen komen door het RPT-algoritme zelf of door specifieke dataset-kenmerken. Er is een gebrek aan inzicht in de grenzen van RPT en of deze vaardigheden overdraagbaar zijn naar domeinen met fundamenteel andere redeneerpatronen (bijv. van wiskunde naar juridische analyse).

Methodologie

De auteurs hanteren een tweestaps-onderzoeksopzet om de generaliseerbaarheid van RPT systematisch te analyseren:

Observational Study (Observatief Onderzoek):
- Doel: Een breed overzicht geven van de generaliseerbaarheid van bestaande open-source RPT-modellen.
- Opzet: 18 recente open-weight RPT-modellen (met openbaar gemaakte post-training data) werden vergeleken met hun respectievelijke base-modellen.
- Benchmarks: Evaluatie vond plaats over 16 benchmarks verdeeld over drie hoofddomeinen: Wiskunde (Math), Coderen (Code) en Kennisintensief Redeneren (Knowledge-intensive, o.a. juridisch, financieel, medisch).
- Analyse: Het verschil in prestaties werd gemeten tussen In-Domain (ID) taken (vergelijkbaar met trainingsdata) en Out-of-Domain (OOD) taken.
Interventional Study (Interventiestudie):
- Doel: Confounders (zoals verschillende algoritmen, hyperparameters en dataset-mixes) uitsluiten om het effect van RPT op zich te isoleren.
- Opzet: Drie nieuwe RPT-modellen werden getraind vanuit dezelfde base-model (DeepSeek-R1-Distill-Qwen-1.5B) met identieke configuraties, maar elk op een disjuncte, single-domain dataset:
  - Wiskunde (Math)
  - Coderen (Code)
  - Kennisintensief Redeneren (Knowledge-intensive)
- Validatie: Er werden extra experimenten uitgevoerd met verschillende algoritmen (GRPO vs. DAPO), base-modellen (Llama vs. Qwen) en trainingstijden (aantal epochs/stappen) om de stabiliteit van de bevindingen te testen.

Statistische Analyse:
De auteurs gebruiken geaggregeerde nauwkeurigheidsverbeteringen ( $\Delta$ ) en de Cochran–Mantel–Haenszel (CMH) test om de odds ratio ( $\hat{\theta}$ ) te berekenen, wat de statistische significantie van de verbetering bepaalt.

Belangrijkste Bijdragen en Resultaten

De studie levert vier kernbevindingen op die de generaliseerbaarheid van RPT kwantificeren:

1. RPT-gewinst generaliseert niet naar willekeurige onbekende domeinen

Modellen getraind op RPT vertonen aanzienlijke verbeteringen op taken binnen hun trainingsdomein (ID), maar presteren vaak slechter of tonen geen verbetering op onbekende domeinen (OOD).
Voorbeeld: Een model getraind op wiskundige data toonde een verbetering van +5,1% op wiskundetaak, maar slechts +1,7% op andere taken, en in sommige gevallen zelfs een daling van de prestaties op OOD-taken.

2. Generalisatie hangt af van de structuur van het redeneerpatroon

Structuur-naar-Structuur (Wiskunde $\leftrightarrow$ Code): Er is sterke wederzijdse generalisatie tussen wiskunde en coderen. Beide domeinen delen gestructureerde redeneerpatronen (deterministische logische stappen, formele syntaxis). Modellen getraind op wiskunde presteren beter op code en vice versa.
Gestructureerd naar Ongestructureerd (Wiskunde/Code $\to$ Kennis): Er is geen succesvolle generalisatie van gestructureerde domeinen (wiskunde/code) naar ongestructureerde domeinen (juridisch, medisch, financieel). Modellen die op wiskunde zijn getraind, presteren vaak slechter op kennisintensieve taken.
Ongestructureerd naar Gestructureerd (Kennis $\to$ Wiskunde/Code): Interessant genoeg tonen modellen getraind op ongestructureerde kennisdata soms wel verbeteringen op gestructureerde taken. Dit suggereert dat ongestructureerd redeneren een conceptueel "super-set" kan zijn dat elementen van gestructureerd redeneren omvat.

3. Generalisatie binnen een domein hangt af van subdomein-structuur

Binnen gestructureerde domeinen (zoals wiskunde) generaliseren modellen goed tussen verschillende taken (bijv. van GSM8K naar AIME).
Binnen ongestructureerde domeinen (zoals "kennis") is er weinig consistentie. Een model getraind op financiële data presteerde bijvoorbeeld slechter op medische of juridische taken, omdat deze subdomeinen geen gedeeld logisch template delen.

4. Generalisatie is robuust over configuratievariaties

De beperkte generalisatie is inherent aan het RPT-proces zelf en niet afhankelijk van het specifieke algoritme (GRPO vs. DAPO), het base-model (Qwen vs. Llama) of de modelgrootte.
Overfitting: Naarmate het aantal trainingstappen toeneemt, neemt de kloof tussen in-domein en out-of-domein prestaties toe. Modellen overfitten op de specifieke redeneerpatronen van de trainingsdata, wat de generalisatie verder vermindert.

Significantie en Conclusie

Dit paper biedt een kritische nuance aan het huidige optimisme rondom Reinforcement Post-Training. De belangrijkste conclusies zijn:

Geen Universele "Redeneer-Boost": RPT is geen algemene oplossing die de redeneercapaciteit van een LLM universeel verbetert. De voordelen zijn grotendeels beperkt tot domeinen die vergelijkbare redeneerpatronen hebben als de trainingsdata.
Rol van Redeneerpatronen: De overdraagbaarheid van vaardigheden wordt primair bepaald door de structuur van het redeneerproces (gestructureerd vs. ongestructureerd) en niet alleen door de hoeveelheid data of de complexiteit van het model.
Implicaties voor Toekomstig Onderzoek: Om RPT effectief in diverse real-world scenario's in te zetten, moeten trainingsdata zorgvuldig worden samengesteld om de gewenste domeinen te dekken, of moeten nieuwe methoden worden ontwikkeld om de overdracht van gestructureerde naar ongestructureerde vaardigheden te faciliteren.

Samenvattend waarschuwt de studie dat hoewel RPT krachtig is voor het verbeteren van specifieke vaardigheden (zoals wiskunde of code), het geen magische oplossing is voor het oplossen van "black box" redeneerproblemen in volledig nieuwe, ongestructureerde domeinen.

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

De "Super-trainer" voor AI

De Grote Vraag: Is deze slimheid overdraagbaar?

Wat hebben ze ontdekt?

De Belangrijkste Conclusie

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Resultaten

Significantie en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics