Oorspronkelijke auteurs: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Gepubliceerd 2026-06-15

📖 1 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Nog geen uitleg beschikbaar in deze taal.

Probeer: DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Technische Samenvatting: Een Benchmark en Raamwerk voor het Evalueren van Volgende Actie-voorspellingen in Spreadsheets

Probleemstelling

Hoewel voorspellende code-aanvulling de productiviteit van ontwikkelaars in software engineering aanzienlijk heeft versneld, blijven analoge functies voor spreadsheet-creatie nagenoeg afwezig. Ondanks de alomtegenwoordigheid van spreadsheets zijn huidige automatiseringstools beperkt tot specifieke scenario's (bijv. formulegeneratie of kolomafleiding via FlashFill) of vereisen ze expliciete gebruikersoproep van natuurlijke taalagenten. Voor routinematige, repetitieve bewerkingen overstijgt de overhead van het opstellen van prompts en het wachten op reacties vaak de kosten van directe manipulatie, wat ertoe leidt dat gebruikers terugvallen op handmatige invoer.

De primaire barrières voor het ontwikkelen van algemene voorspellers van de volgende actie in spreadsheets zijn tweeledig:

Datatekort: In tegenstelling tot code, die gedetailleerde versiegeschiedenissen heeft, missen publieke spreadsheet-corpora fijnmazige bewerkingsgeschiedenissen. Bestaande datasets leggen doorgaans alleen statische snapshots of hoogwaardige evolutie vast.
Evaluatiecomplexiteit: De ruimte van spreadsheet-acties is complex en omvat ruimtelijke, temporele en samengestelde operaties. Bovendien faalt een statische evaluatie ("gegeven geschiedenis $x$ , voorspel volgende actie $y$ ") (teacher-forced) in het vatten van de dynamische aard van gebruikersinteractie, waarbij geaccepteerde voorspellingen de toekomstige staat en daaropvolgende gebruikersbehoeften veranderen.

Methodologie

1. Constructie van de Benchmark-dataset

Om het gebrek aan bewerkingsgeschiedenissen aan te pakken, hebben de auteurs een dataset samengesteld van 52 hoogwaardige trajecten met in totaal 11.907 operaties. Deze trajecten reconstrueren de creatie van spreadsheets vanuit statische, publieke werkboeken. De constructie-pipeline bestaat uit drie fasen:

Symbolische Cold-Start: Een visie-taalmodel (VLM) annoteert statische bladen met semantische metadata (regio's, afhankelijkheden, geplakte bereiken). Symbolische heuristieken breken de eindtoestand vervolgens af in cel-niveau operaties, waarbij aangrenzende identieke operaties worden samengevoegd tot bereik-acties.
LLM-verfijning: Een LLM-gebaseerde judge-editor loop identificeert en corrigeert onnatuurlijke patronen in de symbolische sequenties (bijv. het consolideren van verspreide cel-voor-cel opmaak naar bereik-operaties, het verwijderen van overtollige opmaak).
Menselijke Annotatie: Menselijke annotatoren voeren een laatste controle uit om resterende onnatuurlijke subsequenties te corruiëren. Deze stap is substantieel; de gemiddelde genormaliseerde bewerkingsafstand tussen de pre-annotatie en de uiteindelijke trajecten is 0,69, waarbij 19 van de 52 trajecten effectief van begin tot eind zijn herschreven.

De dataset dekt diverse operaties, waaronder invoer, samenvoegen, opmaak (lettertype, vulkleur, rand, uitlijning), plakken en autofill.

2. Online Evaluatie Raamwerk

Het artikel stelt een online evaluatie raamwerk voor dat een echte gebruikersworkflow simuleert, waarmee verder wordt gegaan dan statische stap-voor-stap scoring.

Proces: Het systeem observeert een geschiedenis van $n$ acties en voorspelt een sequentie van nul of meer acties.
Acceptatie/Afwijzing: Op basis van een acceptatie-heuristiek (bijv. precisiedrempels, bespaarde gebruikersacties) wordt de voorspelling ofwel geaccepteerd ofwel afgewezen.
Toestandsadaptatie:
- Indien Geaccepteerd: De toekomstige grondwaarheid-traject wordt dynamisch bijgewerkt. Succesvolle voorspellingen verwijderen de overeenkomstige toekomstige operaties. Foutieve positieven triggeren de invoer van inverse operaties (bijv. het wissen van een verkeerde vulkleur) om fouten ongedaan te maken.
- Indien Afgewezen: De voorspelling wordt weggegooid en de volgende grondwaarheid gebruikersactie wordt toegevoegd aan de geschiedenis.
Terminatie: De loop herhaalt zich totdat de doel-spreadsheet is bereikt of een stap-drempel is overschreden.

3. Metrieken

Het raamwerk berekent metrieken op drie granulariteiten:

Eigenschap/Actie Niveau: Classificeert individuele (cel, eigenschap) paren als True Positives (TP), False Positives (FP), False Negatives (FN) of Mismatches (MM).
Voorspellingsniveau: Meet Precisie (fractie correcte eigenschappen) en Gebruikersacties Bespaard (UAS), wat de netto reductie in gebruikersinspanning kwantificeert indien de voorspelling geaccepteerd zou worden.
Emulatieniveau: Houdt Acceptatiepercentage (AR), Gemiddelde Precisie en Voorspelbaarheid Dekking (PCOV) bij—het deel van de theoretisch voorspelbare acties (bepaald door een oracle) dat het systeem daadwerkelijk heeft geproduceerd.

4. Baseline Solvers

Het raamwerk evalueert drie families van solvers:

Zero-shot LLMs: Modellen (GPT-5 varianten) die geprompt worden met geschiedenis en operatie-syntax.
Fine-tuned SLMs: SmolLM2 modellen (135M en 360M parameters) getraind op synthetische operatie-sequenties.
Klassieke ML: N-gram modellen (getraind en online), LSTM en XGBoost.

Belangrijkste Resultaten

Leerbaarheid: De taak is leerbaar. Er is een duidelijke correlatie tussen modelcapaciteit en prestaties. GPT-5 met redenering bereikt 32,7% UAS in single-action repredict settings, terwijl GPT-5 mini 18,0% bereikt. Fine-tuned SmolLM2-360M (26,8% UAS) benadert de prestaties van GPT-5 (27,4%) ondanks dat het aanzienlijk kleiner is.
Het belang van Onthouding (Abstention): Modellen die niet in staat zijn tot onthouding presteren slecht. De "ALWAYS" heuristiek (elke voorspelling accepteren) levert -19,2% UAS (netto negatieve besparing) op door een lage precisie (9,3%). Dit bevestigt dat weten wanneer niet te voorspellen even cruciaal is als de nauwkeurigheid van de voorspelling zelf.
Trigger Frequentie: Het aanroepen van de voorspeller na elke gebruikersactie ( $s=1$ ) levert de hoogste UAS (27,4%) op, ondanks een lager acceptatiepercentage (30,9%) vergeleken met minder frequente triggers. Dit suggtioneert dat goedkope, frequente triggers waardevol zijn, aangezien gebruikers onjuiste suggesties kunnen afwijzen zonder significante penalty.
Actie-categorieën: Inhoudsrijke operaties (Invoer, Plakken, Vulkleur) worden vaker geaccepteerd dan presentatieve operaties (Uitlijning, Rand). Fine-tuning verbetert de prestaties aanzienlijk voor structurele categorieën (Rand, Vulkleur, Autofill) waar basismodellen moeite mee hadden.
Contextlengte: Het vergroten van het contextvenster van 32 naar 128 operaties verbetert de UAS, maar de winst neemt snel af boven de 128, wat suggereert dat het meeste voorspellende signaal in de recente geschiedenis ligt.
Voorspellingslengte: In multi-actie settings presteert een onbeperkte voorspellingsscope het best. Het beperken van het aantal acties per voorspelling vermindert de UAS, wat aangeeft dat modellen zichzelf goed reguleren wanneer ze de ruimte krijgen om langere sequenties te emitteren voor repetitieve patronen.

Betekenis en Bijdragen

Het artikel levert drie primaire bijdragen:

Benchmark Dataset: De eerste gecureerde dataset van 52 spreadsheet-creatie-trajecten (11.907 operaties) met menselijk gevalideerde grondwaarheid, wat het kritieke tekort aan bewerkingsgeschiedenis-data aanpakt.
Online Evaluatie Raamwerk: Een nieuwe evaluatiemethodologie die gebruikersacceptatie gedrag modelleert en grondwaarheid-trajecten dynamisch aanpast. Dit vangt real-world nut en fout-stapeling (error compounding) op, wat statische offline evaluaties missen.
Ontwerpinzichten: Door dit raamwerk toe te passen op diverse baselines, demonstreren de auteurs dat:
- Actievoorspelling een levensvatbare taak is voor zowel grote als kleine modellen.
- Onthoudingsmechanismen (Abstention mechanisms) cruciaal zijn voor nut; modellen moeten leren voorspellingen te onderdrukken wanneer de zekerheid laag is.
  {% %}% Goedkope triggers (frequente voorspellingspogingen) effectiever zijn dan wachten op momenten van hoge zekerheid.
- Fine-tuning op domeinspecifieke operatie-sequenties kleine modellen in staat stelt om grote zero-shot LLM's te evenaren.

De auteurs concluderen dat dit benchmark en raamwerk een noodzakelijke fundering bieden voor het ontwikkelen van proactieve, model-loze assistenten voor spreadsheets, waarmee de kloof tussen code-aanvulling en spreadsheet-productiviteit wordt overbrugd. Ze moedigen expliciet onderzoek aan naar minder energie-intensieve methoden (zoals de gefinetunede SLM's) om dit probleem op te lossen.

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets