Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Dit paper introduceert Talk-to-Your-Slides, een hoog-efficiënt agent dat presentatieslides bewerkt via taalgestuurde manipulatie van gestructureerde data in plaats van visuele pixels, wat resulteert in aanzienlijke verbeteringen in snelheid, kosten en instructie-trouw vergeleken met bestaande GUI-basismethoden.

Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jaegul Choo

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎤 De Kern: Praat met je Dia's, niet met je Scherm

Stel je voor dat je een presentatie hebt met 50 dia's en je moet de tekst van het Koreaans naar het Engels vertalen. Of misschien moet je de prijzen van 120 dia's updaten.

Hoe doen mensen dit nu?

  1. De menselijke aanpak: Je klikt op elke dia, selecteert tekst, kopieert, plakt, vertaalt en controleert de opmaak. Dit duurt dagen en is saai.
  2. De huidige "slimme" robots (GUI-agents): Deze robots kijken naar je scherm alsof ze een mens zijn. Ze zien de dia als een foto. Ze proberen te lezen wat er op de foto staat (zoals OCR) en klikken dan met een virtuele muis op de knoppen.
    • Het probleem: Dit is traag, duur en foutgevoelig. Het is alsof je probeert een boek te herschrijven door alleen naar de foto's van de pagina's te kijken en te raden waar de letters staan. Als de robot een letter mist, is de hele zin verkeerd.

Wat doet dit nieuwe systeem (Talk-to-your-slides)?
In plaats van naar de foto van de dia te kijken, praat het systeem direct met de onderliggende bouwplaat van de dia.


🏗️ De Analogie: De Architect vs. De Schilder

Om dit te begrijpen, gebruiken we een bouwmetafoor:

  • De oude manier (GUI-agent) is als een schilder die naar een muur kijkt.
    Hij ziet een muur met een raam en een deur. Hij wil de deur verplaatsen. Hij moet eerst meten (kijken), dan een gat boren (klikken), en hopen dat hij de juiste steen raakt. Als hij een steen verkeerd raakt, valt de muur een beetje uit elkaar. Dit kost veel tijd en moeite.

  • De nieuwe manier (Talk-to-your-slides) is als een architect die de blauwdruk heeft.
    Het systeem heeft geen foto nodig. Het heeft direct toegang tot de digitale bouwplaat (de XML-gegevens) van de PowerPoint.

    • Je zegt: "Verplaats de deur op pagina 5."
    • Het systeem zegt: "Oké, in de blauwdruk staat dat de deur op coördinaat X,Y zit. Ik verander die code direct."
    • Geen meten, geen gissen, geen klikken. Het is alsof je de deur in de blauwdruk versleept en hij is direct op de nieuwe plek.

🚀 Waarom is dit zo geweldig?

Het paper laat zien dat deze aanpak drie grote voordelen heeft:

  1. Snelheid (De Sprint vs. De Wandel):
    Omdat het systeem niet eerst een foto hoeft te maken en te analyseren, is het 34% sneller. Het is als het verschil tussen een auto die over een weg rijdt (directe code) en een auto die door een modderpoel moet (het verwerken van beelden).

  2. Nauwkeurigheid (De Chirurg vs. De Klompen):
    Omdat het direct met de tekst werkt, maakt het geen leesfouten. Als je een woord wilt veranderen, verandert hij exact dat woord. De oude methoden (die naar beelden kijken) maken vaak fouten bij het lezen van tekst, vooral als de lettertype of kleur lastig is. Dit nieuwe systeem is 34% betrouwbaarder in het volgen van instructies.

  3. Kosten (De Prijs van de Brandstof):
    Het verwerken van beelden kost veel rekenkracht (en dus geld). Het verwerken van tekst (code) is veel goedkoper. Het paper stelt dat dit systeem 87% goedkoper is dan de huidige slimme robots.

🧩 Hoe werkt het? (Het 4-stappenplan)

Het systeem werkt als een slimme teamleider met vier specialisten:

  1. De Vertaler (Instructiebegrip):
    Jij zegt: "Maak alle koppen rood." Deze module vertaalt jouw zin naar een strak plan: "Ga naar dia 1, 2, 3... en verander de kleurcode van de kop."
  2. De Inventarisator (Documentbegrip):
    Deze module kijkt niet naar de dia, maar leest de bouwplaat. Hij weet precies welke tekst waar staat, welke lettertype er gebruikt wordt en hoe groot de kaders zijn. Hij maakt een lijstje van alles wat er is.
  3. De Redacteur (Documentbewerking):
    Deze module neemt jouw plan en de inventarislijst en schrijft de nieuwe tekst of kleuren op in een lijstje. Hij zorgt dat de stijl (lettertype, grootte) behouden blijft.
  4. De Bouwer (Code-generator):
    Deze module neemt het nieuwe lijstje en schrijft automatisch een stukje computercode (Python) dat de PowerPoint-applicatie direct aanstuurt om de wijzigingen door te voeren.

🛡️ De Nieuwe Test (TSBench)

De auteurs hebben ook een nieuwe test ontwikkeld, genaamd TSBench.
Stel je voor dat je een rijtuig wilt testen. Je kunt hem niet alleen op een vlakke weg laten rijden (makkelijke taken), je moet ook testen of hij over rotsen en in modder kan (moeilijke taken).

  • TSBench is een verzameling van 379 verschillende opdrachten.
  • Er is zelfs een Hard-deel met opdrachten die lastig zijn, zoals: "Verplaats de tekst zo dat hij netjes onder de afbeelding past" (dit vereist ruimtelijk inzicht).

🏁 Conclusie

Talk-to-your-slides is een revolutie in het bewerken van presentaties.

  • Vroeger: Robots keken naar het scherm en klikten (traag, duur, foutgevoelig).
  • Nu: Robots praten direct met de data van de dia's (snel, goedkoop, perfect).

Het is alsof je van het handmatig schilderen van een huis bent gegaan naar het gebruik van een 3D-printer die de muren direct in de juiste kleur zet. Voor taken die veel tekst en opmaak inhouden, is dit de toekomst van automatisering.

Let op: Het systeem is nog niet perfect voor alles. Als je zegt "Maak deze dia er 'mooier' uitzien", kan het systeem dat nog niet goed doen, omdat "mooi" vaak visueel is en niet alleen tekstueel. Maar voor alles wat met tekst, vertalingen en opmaak te maken heeft, is het een gamechanger.