Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Dit paper introduceert SlideRL, een open-source framework dat LLM-agents via versterkt leren en een innovatieve inverse specificatiebeloning traint om professionele presentaties te genereren, waarbij een 7B-parametermodel 91,2% van de kwaliteit van een veel groter model bereikt.

Karthik Ragunath Ananda Kumar, Subrahmanyam Arunachalam

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een presentatie moet maken voor je baas. Je moet eerst onderzoek doen, een verhaal bedenken, dia's ontwerpen en zorgen dat het er strak uitziet. Voor een mens is dit al veel werk; voor een computer is het een enorme uitdaging.

Deze paper beschrijft hoe onderzoekers een slimme computer (een AI) hebben getraind om dit werk alleen te doen, en zelfs beter dan veel andere grote computers. Ze noemen hun methode "Learning to Present".

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. De Probleemstelling: De AI is als een onervaren stagiair

Stel je een nieuwe stagiair voor die nog nooit een presentatie heeft gemaakt. Je geeft hem een opdracht: "Maak een presentatie over elektrische auto's."
De stagiair weet niet waar hij moet beginnen. Hij zoekt misschien de verkeerde dingen op, maakt slordige dia's of vergeet de structuur.
In het verleden konden AI's wel tekst schrijven, maar ze faalden vaak bij het gebruiken van tools (zoals zoeken op internet, een schema maken en dia's ontwerpen) om een compleet eindproduct te leveren.

2. De Oplossing: Een Virtuele Werkplek met een Slimme Baas

De onderzoekers hebben een speciale "virtuele werkplek" gebouwd (een omgeving) waar de AI-agent kan oefenen.

  • De Tools: De AI heeft 14 verschillende gereedschappen in zijn gereedschapskist, zoals een zoekmachine, een schrijver, een ontwerper en een controleur.
  • De Baas (De Beloningssysteem): Dit is het belangrijkste deel. In plaats van dat de AI alleen aan het einde een cijfer krijgt, krijgt hij direct feedback na elke stap.
    • Vergelijking: Stel je voor dat je leert fietsen. Een oude methode zou zijn: "Je valt pas als je bij de finish bent, dan krijg je een zweepslag." De nieuwe methode is: "Als je evenwicht houdt, krijg je een snoepje. Als je omvalt, krijg je een kleine tik." Zo leert de AI veel sneller.

3. De Magische Truc: De "Omgekeerde Test"

Dit is het meest creatieve onderdeel van de paper. Ze hebben een nieuwe manier bedacht om te meten of de presentatie goed is: De Omgekeerde Specificatie Beloning.

  • Hoe werkt het? Stel, de AI maakt een presentatie over "Elektrische Auto's". Vervolgens laten ze een andere AI (de "rechercheur") naar die presentatie kijken en vragen: "Wat denk je dat de opdracht was die hierbij hoorde?"
  • De Test: Als de rechercheur antwoordt: "Oh, dit was een presentatie over elektrische auto's voor investeerders," dan weet de maker-AI: "Ja! Ik heb mijn boodschap duidelijk overgebracht!"
  • De Straling: Als de rechercheur zegt: "Ik dacht dat dit een recept was voor pannenkoeken," dan weet de maker-AI: "Oh nee, mijn presentatie was te verwarrend."
  • Waarom is dit slim? Het meet niet alleen of de tekst klopt, maar of de gehele boodschap duidelijk overkomt. Het is alsof je een schilderij laat zien aan iemand en vraagt: "Wat denk je dat de schilder wilde vertellen?" Als ze het juiste verhaal vertellen, is het schilderij geslaagd.

4. De Training: Van Kleine naar Grote Meesters

Ze hebben een klein, maar slim model (Qwen2.5-Coder-7B) getraind.

  • De Leraar: Ze gebruikten een heel grote, dure AI (Claude Opus) om eerst de perfecte presentaties te maken. Dit zijn de "voorbeelden" die de kleine AI moet leren nabootsen.
  • De Methode (GRPO): Ze gebruikten een techniek waarbij de AI probeert, kijkt wat er misgaat, en zichzelf corrigeert. Ze trainden alleen een heel klein stukje van de hersenen van de AI (0,5%), maar dat bleek genoeg.
  • Het Resultaat: De kleine, getrainde AI werd 91% zo goed als de enorme, dure "meester-AI" (Claude Opus), maar was veel sneller en goedkoper.

5. Wat leerden we? (De Les van de Paper)

  • Groot is niet altijd beter: Een AI met 120 miljard parameters (GPT OSS 120B) faalde volledig omdat hij de instructies niet volgde. Hij deed alsof hij werkte, maar maakte geen echte presentaties.
  • Discipline is key: Het gaat erom dat de AI de regels volgt (de juiste tools gebruikt) en niet alleen maar "raadselachtige" tekst produceert.
  • Kwaliteit vs. Kosten: Met deze methode kun je een presentatie maken die bijna net zo goed is als die van een dure expert, maar dan met een model dat in je eigen laptop past.

Samenvattend

De onderzoekers hebben een AI getraind om presentaties te maken door hem een virtuele werkplek te geven, directe feedback te geven na elke stap, en hem te testen met een omgekeerde vraag ("Wat was de opdracht?"). Het resultaat is een slimme, goedkope AI-assistent die net zo goed presteert als de duurste systemen op de markt, zolang hij maar de instructies goed volgt.

Het is alsof je een stagiair niet alleen laat werken, maar hem ook een spiegel geeft die direct laat zien of zijn werk duidelijk is voor de klant.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →