Talk to Your Slides: High-Efficiency Slide Editing via Language-Driven Structured Data Manipulation

Die Arbeit stellt „Talk-to-Your-Slides" vor, einen effizienten Agenten zur Bearbeitung von Präsentationsfolien, der durch die manipulation von strukturierten Daten statt durch visuelle Bildanalyse eine höhere Geschwindigkeit, Genauigkeit und Kosteneffizienz bei text- und formatierungsbezogenen Aufgaben erreicht und dabei mit dem neu eingeführten TSBench-Datensatz validiert wird.

Kyudan Jung, Hojun Cho, Jooyeol Yun, Soyoung Yang, Jaehyeok Jang, Jaegul Choo

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: „Sag es deinen Folien!" – Wie man Präsentationen nicht mehr mit der Maus, sondern mit Worten bearbeitet

Stell dir vor, du hast einen riesigen Stapel von 50 PowerPoint-Folien, die du von Koreanisch ins Englische übersetzen musst. Oder du musst auf 120 Folien den Preis eines Produkts ändern.

Das alte Problem: Der mühsame Weg
Bisher gab es im Grunde zwei Möglichkeiten, das zu tun:

  1. Der menschliche Weg: Du sitzt stundenlang vor dem Bildschirm, klickst jede Folie einzeln an, markierst den Text, löschst ihn und tippst neu. Das ist wie das Händewaschen von 100 Tassen – es funktioniert, aber es ist extrem langweilig und zeitaufwendig.
  2. Der „Roboter mit Kamera"-Weg: Es gab neue KI-Agenten, die wie ein Mensch vor dem Bildschirm sitzen. Sie schauen sich einen Screenshot der Folie an (wie eine Kamera), erkennen mit OCR (Texterkennung) den Text und versuchen dann, mit der Maus zu klicken und zu tippen. Das Problem? Das ist wie ein Koch, der ein Rezept nur durch das Anschauen eines Fotos des Gerichts versucht zu kochen. Es ist langsam, teuer (die KI muss viel „denken") und manchmal verwechselt die KI das Bild mit dem Text.

Die neue Lösung: TALK-TO-YOUR-SLIDES
Die Forscher aus diesem Papier haben eine dritte, viel schlauere Methode entwickelt. Sie nennen ihr System „TALK-TO-YOUR-SLIDES".

Stell dir PowerPoint nicht als Bild vor, sondern als einen riesigen, gut organisierten Baukasten aus Lego.

  • Die alten Methoden schauten nur auf das fertige Lego-Modell (das Bild) und versuchten, es nachzubauen.
  • Die neue Methode öffnet die Schachtel, greift direkt in den Baukasten und sagt: „Nimm den roten Stein an Position X und tausche ihn gegen einen blauen aus."

Wie funktioniert das genau? (Die 4 Schritte)

Das System arbeitet in vier Schritten, wie ein sehr effizientes Büro:

  1. Der Planer (Verstehen): Du sagst dem System: „Übersetze alle Titel auf Folie 1 bis 10 ins Englische." Der Planer zerlegt diesen Satz in eine klare Liste: „Folie 1: Titel ändern", „Folie 2: Titel ändern", usw.
  2. Der Archivar (Lesen): Statt einen Screenshot zu machen, greift das System direkt in die Datenstruktur der PowerPoint-Datei. Es liest den Text, die Farben und die Formen direkt aus dem Code der Datei aus. Es weiß genau, wo welcher Buchstabe sitzt, ohne ihn erst „sehen" zu müssen.
  3. Der Editor (Bearbeiten): Ein KI-Modell nimmt die Liste vom Planer und die Daten vom Archivar und sagt: „Okay, ich ändere jetzt den Text in den Daten." Es schreibt quasi die neue Version der Datei in einer strukturierten Liste (JSON).
  4. Der Baumeister (Code): Ein letztes Modul schreibt einen kurzen Computercode (Python), der diese Änderungen direkt in die PowerPoint-Datei einfügt.

Warum ist das so genial? (Die Analogie)

Stell dir vor, du möchtest den Inhalt eines Buches ändern.

  • Die alte Methode (Bild-basiert): Du fotografierst jede Seite, lässt eine KI den Text auf dem Foto lesen, druckst die Seite neu aus und klebst sie mit Klebeband über die alte Seite. Das dauert ewig und sieht oft unordentlich aus.
  • Die neue Methode (Daten-basiert): Du öffnest das Buch, greifst direkt in den Text und tauschst die Wörter aus. Das Buch bleibt perfekt gebunden, die Seitenzahlen stimmen, und es geht in Sekunden.

Die Ergebnisse: Schnell, billig und genau
Die Forscher haben ihr System getestet und verglichen:

  • Geschwindigkeit: Es ist 34 % schneller als die alten Methoden.
  • Genauigkeit: Es hält sich 34 % besser an deine Anweisungen (keine verhaspelten Texte).
  • Kosten: Es kostet 87 % weniger Geld, weil es keine teuren Bildverarbeitungsschritte braucht.

Ein kleiner Nachteil (Die „Kunst"-Grenze)
Das System ist extrem gut bei Text, Zahlen und Struktur. Aber wenn du sagst: „Mach die Folie mal ein bisschen schöner oder ausgewogener", stolpert es manchmal. Denn es sieht das Bild nicht wirklich. Es kennt die Daten, aber nicht das „Gefühl" der Ästhetik. Für solche Fälle müsste man vielleicht in Zukunft eine Kamera (Visions-KI) als Assistenten hinzunehmen.

Fazit
Dieses Papier zeigt, dass wir für viele Aufgaben nicht brauchen, dass eine KI wie ein Mensch auf den Bildschirm starrt. Wenn wir ihr direkt Zugang zu den „inneren Daten" der Software geben, können wir Aufgaben wie das Übersetzen oder Formatieren von hunderten Folien in einem Bruchteil der Zeit erledigen – schneller, billiger und präziser. Es ist der Unterschied zwischen dem manuellen Umstellen von Möbeln und dem Einsatz eines Roboters, der die Möbel direkt aus dem digitalen Plan neu anordnet.