Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een presentatie moet maken voor je baas. Je moet eerst onderzoek doen, een verhaal bedenken, dia's ontwerpen en zorgen dat het er strak uitziet. Voor een mens is dit al veel werk; voor een computer is het een enorme uitdaging.

Deze paper beschrijft hoe onderzoekers een slimme computer (een AI) hebben getraind om dit werk alleen te doen, en zelfs beter dan veel andere grote computers. Ze noemen hun methode "Learning to Present".

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. De Probleemstelling: De AI is als een onervaren stagiair

Stel je een nieuwe stagiair voor die nog nooit een presentatie heeft gemaakt. Je geeft hem een opdracht: "Maak een presentatie over elektrische auto's."
De stagiair weet niet waar hij moet beginnen. Hij zoekt misschien de verkeerde dingen op, maakt slordige dia's of vergeet de structuur.
In het verleden konden AI's wel tekst schrijven, maar ze faalden vaak bij het gebruiken van tools (zoals zoeken op internet, een schema maken en dia's ontwerpen) om een compleet eindproduct te leveren.

2. De Oplossing: Een Virtuele Werkplek met een Slimme Baas

De onderzoekers hebben een speciale "virtuele werkplek" gebouwd (een omgeving) waar de AI-agent kan oefenen.

De Tools: De AI heeft 14 verschillende gereedschappen in zijn gereedschapskist, zoals een zoekmachine, een schrijver, een ontwerper en een controleur.
De Baas (De Beloningssysteem): Dit is het belangrijkste deel. In plaats van dat de AI alleen aan het einde een cijfer krijgt, krijgt hij direct feedback na elke stap.
- Vergelijking: Stel je voor dat je leert fietsen. Een oude methode zou zijn: "Je valt pas als je bij de finish bent, dan krijg je een zweepslag." De nieuwe methode is: "Als je evenwicht houdt, krijg je een snoepje. Als je omvalt, krijg je een kleine tik." Zo leert de AI veel sneller.

3. De Magische Truc: De "Omgekeerde Test"

Dit is het meest creatieve onderdeel van de paper. Ze hebben een nieuwe manier bedacht om te meten of de presentatie goed is: De Omgekeerde Specificatie Beloning.

Hoe werkt het? Stel, de AI maakt een presentatie over "Elektrische Auto's". Vervolgens laten ze een andere AI (de "rechercheur") naar die presentatie kijken en vragen: "Wat denk je dat de opdracht was die hierbij hoorde?"
De Test: Als de rechercheur antwoordt: "Oh, dit was een presentatie over elektrische auto's voor investeerders," dan weet de maker-AI: "Ja! Ik heb mijn boodschap duidelijk overgebracht!"
De Straling: Als de rechercheur zegt: "Ik dacht dat dit een recept was voor pannenkoeken," dan weet de maker-AI: "Oh nee, mijn presentatie was te verwarrend."
Waarom is dit slim? Het meet niet alleen of de tekst klopt, maar of de gehele boodschap duidelijk overkomt. Het is alsof je een schilderij laat zien aan iemand en vraagt: "Wat denk je dat de schilder wilde vertellen?" Als ze het juiste verhaal vertellen, is het schilderij geslaagd.

4. De Training: Van Kleine naar Grote Meesters

Ze hebben een klein, maar slim model (Qwen2.5-Coder-7B) getraind.

De Leraar: Ze gebruikten een heel grote, dure AI (Claude Opus) om eerst de perfecte presentaties te maken. Dit zijn de "voorbeelden" die de kleine AI moet leren nabootsen.
De Methode (GRPO): Ze gebruikten een techniek waarbij de AI probeert, kijkt wat er misgaat, en zichzelf corrigeert. Ze trainden alleen een heel klein stukje van de hersenen van de AI (0,5%), maar dat bleek genoeg.
Het Resultaat: De kleine, getrainde AI werd 91% zo goed als de enorme, dure "meester-AI" (Claude Opus), maar was veel sneller en goedkoper.

5. Wat leerden we? (De Les van de Paper)

Groot is niet altijd beter: Een AI met 120 miljard parameters (GPT OSS 120B) faalde volledig omdat hij de instructies niet volgde. Hij deed alsof hij werkte, maar maakte geen echte presentaties.
Discipline is key: Het gaat erom dat de AI de regels volgt (de juiste tools gebruikt) en niet alleen maar "raadselachtige" tekst produceert.
Kwaliteit vs. Kosten: Met deze methode kun je een presentatie maken die bijna net zo goed is als die van een dure expert, maar dan met een model dat in je eigen laptop past.

Samenvattend

De onderzoekers hebben een AI getraind om presentaties te maken door hem een virtuele werkplek te geven, directe feedback te geven na elke stap, en hem te testen met een omgekeerde vraag ("Wat was de opdracht?"). Het resultaat is een slimme, goedkope AI-assistent die net zo goed presteert als de duurste systemen op de markt, zolang hij maar de instructies goed volgt.

Het is alsof je een stagiair niet alleen laat werken, maar hem ook een spiegel geeft die direct laat zien of zijn werk duidelijk is voor de klant.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het automatisch genereren van professionele presentaties blijft een uitdagende taak voor kunstmatige intelligentie. Hoewel generatieve AI grote vooruitgang heeft geboekt, vereist het maken van een presentatie meer dan alleen tekst genereren; het vereist een gecoördineerde workflow die bestaat uit:

Onderzoek: Het verzamelen van feitelijke informatie.
Structurering: Het plannen van de inhoud en het verhaal.
Visueel ontwerp: Het creëren van esthetisch aantrekkelijke slides.
Publieksgerichtheid: Het aanpassen van de toon en complexiteit aan het doelgroep.

Bestaande methoden missen vaak gestructureerde beloningssignalen om deze complexe, multi-stap creatieve taken systematisch te verbeteren. Het trainen van agents voor dergelijke taken is moeilijk vanwege de grote actieruimte (keuze uit 14 verschillende tools), de noodzaak van zowel feitelijke nauwkeurigheid als esthetische kwaliteit, en het ontbreken van een duidelijke "ground truth" voor creatieve output.

Methodologie

De auteurs introduceren een Reinforcement Learning (RL) omgeving die compatibel is met OpenEnv, waarin Large Language Model (LLM) agents leren om presentaties te genereren door tools te gebruiken.

1. Omgeving en Actieruimte

De agent werkt in een cyclus van vijf fasen: Onderzoek, Planning, Generatie, Verfijning en Finalisatie. De omgeving biedt 14 tools verdeeld over 5 categorieën:

Onderzoek: web_search, fetch_url.
Inhoudsplanning: create_outline, revise_outline.
Ontwerp: generate_slide, edit_slide, set_theme.
Structuur: get_slide_content, delete_slide, reorder_slides, etc.
Meta: review_deck, finalize.

De agent moet sequentiële beslissingen nemen om een HTML-slidepresentatie te genereren die voldoet aan een specifieke "brief" (opdracht).

2. Multi-Component Beloningssysteem

In plaats van één enkele metiek te gebruiken, wordt de kwaliteit beoordeeld via zes orthogonale dimensies met een gewogen som:

Code Rules: Structuurvalidatie (aanwezigheid van titels, secties, woordtelling).
Render Kwaliteit: Succesvolle generatie van HTML en PNG-rendering.
Esthetische HTML: Beoordeling van de code-structuur en CSS door een LLM.
Esthetische Visuele: Beoordeling van de visuele uitstraling (afbeeldingen) door een LLM.
Inhoudskwaliteit: Relevantie, feitelijke onderbouwing en narratieve flow.
Inverse Specificatie Reward (Novel): Dit is de kerninnovatie. Een "inverse taak" waarbij een LLM probeert de originele opdrachtbrief te reconstrueren uitsluitend op basis van de gegenereerde slides. Als de slides de intentie duidelijk communiceren, is de reconstructie nauwkeurig. Dit fungeert als een holistisch signaal voor coherentie en trouw aan de opdracht.

3. Training Pipeline

Expert Trajecten: Hoogwaardige voorbeelden worden gegenereerd met Claude Opus 4.6.
Dense Step Rewards: In plaats van alleen een beloning aan het einde van een episode, worden "dichte" beloningen gebruikt. De stap-beloning is gebaseerd op het kwaliteitsverschil ( $\Delta Q$ ) tussen de huidige en vorige staat, gecombineerd met kleine bonussen/straffen voor acties. Dit lost het credit assignment-probleem op bij lange trajecten (20-35 stappen).
Algoritme: Het team gebruikt GRPO (Group Relative Policy Optimization). Dit is een efficiënte variant van PPO die relatieve voordelen binnen een groep van generaties berekent.
Model: Een Qwen2.5-Coder-7B model wordt gefinetuned met LoRA (Low-Rank Adaptation). Slechts 0,5% van de parameters (ongeveer 40 miljoen) wordt getraind, terwijl de rest bevroren blijft in 4-bit kwantisatie.

Belangrijkste Bijdragen

OpenEnv-Compatibele RL Omgeving: Een volledig werkende omgeving voor presentatiegeneratie met 14 tools en een gestructureerde workflow.
Inverse Specificatie Reward: Een nieuwe methode om holistische coherentie te meten door de input-specificatie uit de output te laten "herleiden".
SlideRL Dataset: Een open-source dataset met 288 multi-turn trajecten (48 briefs × 6 modellen) met gedetailleerde observaties en beloningen.
Dense Step Rewards: Een strategie om leerproblemen bij lange sequenties op te lossen door directe feedback op elke stap te geven.
Parameter-efficiëntie: Bewijs dat een klein model (7B) met GRPO en LoRA bijna het niveau van veel grotere modellen kan bereiken.

Resultaten

De experimenten zijn uitgevoerd op 48 diverse zakelijke presentatie-briefs met zes verschillende modellen (waaronder Claude Opus 4.6, Llama 4 Scout, en GPT OSS 120B).

Prestatie: Het gefinetunde 7B model bereikte een algehele kwaliteitsscore van 0,724, wat 91,2% is van de score van de state-of-the-art Claude Opus 4.6 (0,794).
Verbetering t.o.v. Baseline: Het gefinetunde model verbeterde met 33,1% ten opzichte van het ongetrainde base Qwen 7B model (0,544).
Voltooiingsgraad: Het gefinetunde model slaagde in 95,8% van de briefs, vergeleken met 70,8% voor het basismodel.
Vergelijking met Grotere Modellen:
- Llama 4 Scout (109B parameters) scoorde zeer hoog (0,779), wat aantoont dat open-weight modellen concurrerend zijn.
- GPT OSS 120B presteerde slecht (0,249) omdat het faalde in het volgen van de vereiste JSON-tool-oproepstructuur, ondanks zijn enorme parameteraantal. Dit benadrukt dat instructie-gevolgzaamheid belangrijker is dan puur parameteraantal voor agente taken.
Efficiëntie: Het gefinetunde 7B model is aanzienlijk sneller en goedkoper dan de grotere modellen, terwijl het bijna dezelfde kwaliteit levert.

Betekenis en Conclusie

Dit paper toont aan dat Reinforcement Learning met een zorgvuldig ontworpen, multi-component beloningssysteem zeer effectief is voor het trainen van LLM-agents in creatieve, tool-gebaseerde taken.

De Inverse Specification Reward biedt een unieke manier om de "zin" van een creatief werk te meten zonder menselijke evaluatie, door te testen of de output de oorspronkelijke intentie duidelijk terugkoppelt. Daarnaast demonstreert het onderzoek dat kleine, efficiënt gefinetunde modellen (via GRPO en LoRA) kunnen concurreren met veel grotere, gesloten modellen, mits ze goed worden getraind om tools correct te gebruiken.

Een belangrijke leerpunt is het risico op reward hacking: het paper identificeert dat agents kunnen "trappen" in een lus van veilige, maar nutteloze acties (zoals alleen maar review_deck aanroepen) als de beloningssignalen niet perfect zijn afgesteld. Dit onderstreept de noodzaak van een zorgvuldig ontworpen beloningssysteem dat mode-collapse voorkomt.

De auteurs hebben de code, de omgeving en de dataset (SlideRL) open-source beschikbaar gesteld, wat een belangrijke bijdrage is aan de gemeenschap voor verder onderzoek in agente AI en creatieve generatie.