Ursprüngliche Autoren: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Veröffentlicht 2026-06-15

📖 1 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Noch keine Erklärung in dieser Sprache verfügbar.

Versuchen Sie: DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Technisches Resümee: Ein Benchmark und Framework zur Evaluierung von Next-Action-Vorhersagen in Tabellenkalkulationen

Problemstellung

Während die prädiktive Code-Vervollständigung die Produktivität von Softwareentwicklern erheblich beschleunigt hat, bleiben analoge Funktionen für die Erstellung von Tabellenkalkulationen praktisch nicht existent. Trotz der Allgegenwärtigkeit von Tabellenkalkulationen sind aktuelle Automatisierungswerkzeuge auf spezifische Szenarien beschränkt (z. B. Formelerstellung oder Spaltenableitung via FlashFill) oder erfordern den expliziten Aufruf durch Natural-Language-Agenten. Für routinemäßige, repetitive Bearbeitungen übersteigt der Overhead durch das Prompting und das Warten auf Antworten oft die Kosten der direkten Manipulation, was dazu führt, dass Nutzer zur manuellen Eingabe zurückkehren.

Die primären Barrieren für die Entwicklung generalisierter Next-Action-Prädiktoren für Tabellenkalkulationen sind zweifach:

Datenknappheit: Im Gegensatz zu Code, der detaillierte Versionshistorien besitzt, mangelt es öffentlichen Korpora von Tabellenkalkulationen an feingranularen Edithistorien. Bestehende Datensätze erfassen typischerweise nur statische Snapshots oder eine übergeordnete Evolution.
Evaluierungskomplexität: Der Raum der Aktionen in Tabellenkalkulationen ist komplex und umfasst räumliche, zeitliche und zusammengesetzte Operationen. Zudem erfasst eine statische „Gegebene Historie $x$ , Vorhersage nächster Aktion $y$ “-Evaluierung (Teacher-Forcing) nicht die dynamische Natur der Benutzerinteraktion, bei der akzeptierte Vorhersagen den zukünftigen Zustand und die darauffolgenden Bedürfnisse des Nutzers verändern.

Methodik

1. Konstruktion des Benchmark-Datensatzes

Um den Mangel an Edithistorien zu beheben, haben die Autoren einen Datensatz von 52 hochwertigen Trajektorien kuratiert, die insgesamt 11.907 Operationen umfassen. Diese Trajektorien rekonstruieren die Erstellung von Tabellenkalkulationen aus statischen, öffentlichen Workbooks. Die Konstruktions-Pipeline umfasst drei Stufen:

Symbolischer Cold-Start: Ein Vision-Language-Modell (VLM) annotiert statische Blätter mit semantischen Metadaten (Regionen, Abhängigkeiten, eingefügte Bereiche). Symbolische Heuristiken zerlegen den Endzustand dann in zellenbasierte Operationen und führen benachbarte identische Operationen zu Bereichsaktionen zusammen.
LLM-Verfeinerung: Eine LLM-basierte Judge-Editor-Schleife identifiziert und korrigiert unnatürliche Muster in den symbolischen Sequenzen (z. B. das Zusammenfassen verstreuter Zell-Formatierungen zu Bereichsoperationen oder das Entfernen einzelner Formatierungen).
Menschliche Annotation: Menschliche Annotatoren führen einen abschließenden Durchgang durch, um verbleibende unnatürliche Subsequenzen zu korrigieren. Dieser Schritt ist substanziell; die mittlere normalisierte Edit-Distanz zwischen der Pre-Annotation und den finalen Trajektorien beträgt 0,69, wobei 19 von 52 Trajektorien effektiv komplett neu geschrieben wurden.

Der Datensatz deckt diverse Operationen ab, einschließlich Eingabe, Zusammenführen, Formatierung (Schriftart, Füllung, Rahmen, Ausrichtung), Einfügen und Autofill.

2. Online-Evaluierungs-Framework

Das Paper schlägt ein Online-Evaluierungs-Framework vor, das einen realen Benutzer-Workflow simuliert und über die statische schrittweise Bewertung hinausgeht.

Prozess: Das System beobachtet eine Historie von $n$ Aktionen und sagt eine Sequenz von null oder mehr Aktionen voraus.
Akzeptanz/Ablehnung: Basierend auf einer Akzeptanz-Heuristik (z. B. Präzisionsschwellen, Einsparung von Benutzeraktionen) wird die Vorhersage entweder akzeptiert oder abgelehnt.
Zustandsanpassung:
- Falls Akzeptiert: Die zukünftige Ground-Truth-Trajektorie wird dynamisch aktualisiert. Erfolgreiche Vorhersagen entfernen entsprechende zukünftige Operationen. Falsch-Positive lösen das Einfügen inverser Operationen aus (z. B. das Löschen einer falschen Füllung), um Fehler rückgängig zu machen.
- Falls Abgelehnt: Die Vorhersage wird verworfen und die nächste Ground-Truth-Benutzeraktion wird der Historie hinzugefügt.
Terminierung: Die Schleife wiederholt sich, bis das Ziel-Spreadsheet erreicht oder ein Schritt-Schwellenwert überschritten ist.

3. Metriken

Das Framework berechnet Metriken auf drei Granularitäten:

Eigenschaft/Aktions-Ebene: Klassifiziert einzelne (Zelle, Eigenschaft)-Paare als True Positives (TP), False Positives (FP), False Negatives (FN) oder Mismatches (MM).
Vorhersage-Ebene: Misst Präzision (Anteil korrekter Eigenschaften) und User Actions Saved (UAS), was die Netto-Reduktion des Benutzeraufwands quantifiziert, falls die Vorhersage akzeptiert würde.
Emulations-Ebene: Verfolgt Acceptance Rate (AR), Average Precision und Predictability Coverage (PCOV) – den Anteil der theoretisch vorhersagbaren Aktionen (bestimmt durch einen Oracle), die das System tatsächlich produziert hat.

4. Baseline-Solver

Das Framework evaluiert drei Familien von Solvern:

Zero-shot LLMs: Modelle (GPT-5 Varianten), die mit Historie und Operationssyntax gepromptet werden.
Fine-tuned SLMs: SmolLM2-Modelle (135M und 360M Parameter), die auf synthetischen Operationssequenzen trainiert wurden.
Klassisches ML: N-Gram-Modelle (trainiert und online), LSTM und XGBoost.

Zentrale Ergebnisse

Lernbarkeit: Die Aufgabe ist lernbar. Es gibt eine klare Korrelation zwischen Modellkapazität und Performance. GPT-5 mit Reasoning erreicht 32,7 % UAS in Single-Action-Repredict-Settings, während GPT-5 mini 18,0 % erreicht. Fine-tuned SmolLM2-360M (26,8 % UAS) nähert sich der Performance von GPT-5 (27,4 %) an, trotz der signifikant geringeren Größe.
Die Bedeutung der Enthaltung (Abstention): Modelle, denen die Fähigkeit zur Enthaltung fehlt, schneiden schlecht ab. Die „ALWAYS“-Heuristik (Akzeptieren jeder Vorhersage) liefert -19,2 % UAS (negativer Netto-Gewinn) aufgrund niedriger Präzision (9,3 %). Dies bestätigt, dass das Wissen, wann man nicht vorhersagt, ebenso kritisch ist wie die Genauigkeit der Vorhersage selbst.
Trigger-Frequenz: Das Aufrufen des Prädiktors nach jeder Benutzeraktion ( $s=1$ ) liefert den höchsten UAS (27,4 %), obwohl die Acceptance Rate (30,9 %) niedriger ist als bei selteneren Triggern. Dies deutet darauf hin, dass kostengünstige, häufige Trigger wertvoll sind, da Nutzer falsche Vorschläge ohne signifikanten Nachteil ablehnen können.
Aktionskategorien: Inhaltslastige Operationen (Input, Paste, Fill) werden häufiger akzeptiert als präsentationsbezogene (Align, Border). Fine-tuning verbessert die Performance signifikant bei strukturellen Kategorien (Border, Fill, Autofill), in denen Basismodelle Schwierigkeiten hatten.
Kontextlänge: Die Erhöhung des Kontextfensters von 32 auf 128 Operationen verbessert den UAS, wobei die Gewinne jenseits von 128 schnell abnehmen, was darauf hindeutet, dass das meiste prädiktive Signal in der jüngsten Historie liegt.
Vorhersagelänge: In Multi-Action-Settings liefert ein unbegrenzter Vorhersagescope die beste Leistung. Die Beschränkung der Anzahl der Aktionen pro Vorhersage reduziert den UAS, was darauf hindeutet, dass Modelle sich gut selbst regulieren, wenn sie längere Sequenzen für repetitive Muster emittieren dürfen.

Bedeutung und Beiträge

Das Paper leistet drei primäre Beiträge:

Benchmark-Datensatz: Der erste kuratierte Datensatz von 52 Spreadsheet-Erstellungs-Trajektorien (11.907 Operationen) mit menschlich validierter Ground Truth, der den kritischen Mangel an Edithistorien-Daten adressiert.
Online-Evaluierungs-Framework: Eine neuartige Evaluierungsmethodik, die das Akzeptanzverhalten des Benutzers modelliert und die Ground-Truth-Trajektorien dynamisch anpasst. Dies erfasst den realen Nutzen und die Kompensation von Fehlern, was statische Offline-Evaluierungen versäumen.
Design-Erkenntnisse: Durch die Anwendung dieses Frameworks auf verschiedene Baselines zeigen die Autoren auf, dass:
- Die Aktionsvorhersage eine praktikable Aufgabe sowohl für große als auch für kleine Modelle ist.
- Abstentions-Mechanismen entscheidend für den Nutzen sind; Modelle müssen lernen, Vorhersagen zu unterdrücken, wenn die Konfidenz niedrig ist.
- Günstige Trigger (häufige Vorhersageversuche) effektiver sind als das Warten auf Momente hoher Konfidenz.
- Fine-tuning auf domänenspezifischen Operationssequenzen es kleinen Modellen ermöglicht, mit großen Zero-Shot-LLMs gleichzuziehen.

Die Autoren kommen zu dem Schluss, dass dieser Benchmark und das Framework eine notwendige Grundlage für die Entwicklung proaktiver, modellloser Assistenten für Tabellenkalkulationen bilden und die Lücke zwischen Code-Completion und Spreadsheet-Produktivität schließen. Sie ermutigen explizit zur Forschung in weniger energieintensiven Methoden (wie den fine-tuned SLMs), um dieses Problem zu lösen.

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets