Autores originais: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Publicado 2026-06-15

📖 1 min de leitura☕ Leitura rápida

Autores originais: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Ainda não há explicação disponível neste idioma.

Tente: DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Resumo Técnico: Um Benchmark e um Framework para Avaliação de Predições de Próxima Ação em Planilhas

Declaração do Problema

Embora o preenchimento automático preditivo de código tenha acelerado significativamente a produtividade do desenvolvedor na engenharia de software, funcionalidades análogas para a autoria de planilhas permanecem virtualmente inexistentes. Apesar da ubiquidade das planilhas, as ferramentas de automação atuais estão limitadas a cenários específicos (ex: geração de fórmulas ou derivação de colunas via FlashFill) ou exigem a invocação explícita de agentes de linguagem natural pelo usuário. Para edições rotineiras e repetitivas, o overhead de criar prompts e esperar por respostas muitas vezes excede o custo da manipulação direta, levando os usuários a optarem pela entrada manual.

As principais barreiras para o desenvolvimento de preditores generalizados de próxima ação para planilhas são duas:

Escassez de Dados: Ao contrário do código, que possui históricos de versões detalhados, os corpora públicos de planilhas carecem de históricos de edição granulares. Os conjuntos de dados existentes capturam tipicamente apenas snapshots estáticos ou evolução de alto nível.
Complexidade de Avaliação: O espaço de ações de uma planilha é complexo, envolvendo operações espaciais, temporais e compostas. Além disso, uma avaliação estática de "dado o histórico $x$ , prever a próxima ação $y$ " (teacher-forced) falha em capturar a natureza dinâmica da interação do usuário, onde as predições aceitas alteram o estado futuro e as necessidades subsequentes do usuário.

Metodologia

1. Construção do Dataset de Benchmark

Para abordar a falta de históricos de edição, os autores curaram um dataset de 52 trajetórias de alta qualidade totalizando 11.907 operações. Essas trajetias reconstituem a criação de planilhas a partir de workbooks públicos estáticos. O pipeline de construção envolve três estágios:

Cold-Start Simbólico: Um modelo de visão-linguagem (VLM) anota as planilhas estáticas com metadados semânticos (regiões, dependências, intervalos colados). Heurísticas simbólicas então decompõem o estado final em operações ao nível de célula, mesclando operações adjacentes idênticas em ações de intervalo.
Refinamento por LLM: Um loop de juiz-editor baseado em LLM identifica e corrige padrões não naturais nas sequências simbólicas (ex: consolidar formatações dispersas de célula por célula em operações de intervalo, remover formatações residuais).
Anotação Humana: Anotadores humanos realizam uma passagem final para corrigir subsequências não naturais restantes. Este passo é substancial; a distância de edição normalizada média entre as trajetórias pré-anotação e finais é de 0,69, com 19 de 52 trajetórias efetivamente reescritas do zero.

O dataset cobre diversas operações, incluindo entrada, mesclagem, formatação (fonte, preenchimento, borda, alinhamento), colagem e autofill.

2. Framework de Avaliação Online

O artigo propõe um framework de avaliação online que simula um fluxo de trabalho real de usuário, indo além da pontuação estática passo a passo.

Processo: O sistema observa um histórico de $n$ ações e prevê uma sequência de zero ou mais ações.
Aceitação/Rejeição: Com base em uma heurística de aceitação (ex: limiares de precisão, economia de ações do usuário), a predição é aceita ou rejeitada.
Adaptação de Estado:
- Se Aceita: A trajetória futura de ground-truth é dinamicamente atualizada. Predições bem-sucedidas removem operações futuras correspondentes. Falsos positivos disparam a inserção de operações inversas (ex: limpar um preenchimento errado) para desfazer erros.
- Se Rejeitada: A predição é descartada, e a próxima ação de ground-truth do usuário é adicionada ao histórico.
Terminação: O loop se repete até que a planilha alvo seja alcançada ou um limite de passos seja excedido.

3. Métricas

O framework calcula métricas em três granularidades:

Nível de Propriedade/Ação: Classifica pares individuais (célula, propriedade) como Verdadeiros Positivos (TP), Falsos Positivos (FP), Falsos Negativos (FN) ou Desajustes (MM).
Nível de Predição: Mede a Precisão (fração de propriedades corretas) e as Ações de Usuário Salvas (UAS), que quantifica a redução líquida no esforço do usuário caso a predição fosse aceita.
Nível de Emulação: Rastreia a Taxa de Aceitação (AR), Precisão Média e Cobertura de Previsibilidade (PCOV) — a fração de ações teoricamente previsíveis (determinadas por um oracle) que o sistema efetivamente produziu.

4. Solvers de Baseline

O framework avalia três famílias de solvers:

LLMs Zero-shot: Modelos (variantes do GPT-5) com prompts contendo o histórico e a sintaxe da operação.
SLMs Fine-tuned: Modelos SmolLM2 (135M e 360M de parâmetros) treinados em sequências de operações sintéticas.
ML Clássico: Modelos N-gram (treinados e online), LSTM e XGBoost.

Principais Resultados

Aprendizado: A tarefa é aprendível. Existe uma clara correlação entre a capacidade do modelo e o desempenho. O GPT-5 com raciocínio atinge 32,7% de UAS em configurações de repredição de ação única, enquanto o GPT-5 mini atinge 18,0%. O SmolLM2-360M fine-tuned (26,8% de UAS) aproxima-se do desempenho do GPT-5 (27,4%) apesar de ser significativamente menor.
A Importância da Abstenção: Modelos que carecem da capacidade de se abster performam mal. A heurística "ALWAYS" (aceitar toda predição) resulta em -19,2% de UAS (economia líquida negativa) devido à baixa precisão (9,3%). Isso confirma que saber quando não prever é tão crítico quanto a precisão da predição.
Frequência de Gatilho: Invocar o preditor após cada ação do usuário ( $s=1$ ) gera o maior UAS (27,4%) apesar de uma taxa de aceitação (30,9%) menor comparada a gatilhos menos frequentes. Isso sugere que gatilhos baratos e frequentes são valiosos, pois os usuários podem rejeitar sugestões incorretas sem penalidade significativa.
Categorias de Ação: Operações densas em conteúdo (Input, Paste, Fill) são aceitas em taxas mais altas do que as de apresentação (Align, Border). O fine-tuning melhora significativamente o desempenho em categorias estruturais (Border, Fill, Autofill) onde os modelos base tiveram dificuldades.
Comprimento de Contexto: Aumentar a janela de contexto de 32 para 128 operações melhora o UAS, mas os ganhos diminuem rapidamente além de 128, sugerindo que a maior parte do sinal preditivo reside no histórico recente.
Comprimento de Predição: Em configurações de múltiplas ações, o escopo de predição ilimitado performa melhor. Restringir o número de ações por predição reduz o UAS, indicando que os modelos se autorregulam bem quando permitidos a emitir sequências longas para padrões repetitivos.

Significância e Contribuições

O artigo apresenta três contribuições primárias:

Dataset de Benchmark: O primeiro dataset curado de 52 trajetórias de criação de planilhas (11.907 operações) com ground-truth validado por humanos, abordando a falta crítica de dados de histórico de edição.
Framework de Avaliação Online: Uma metodologia de avaliação inovadora que modela o comportamento de aceitação do usuário e adapta dinamicamente as trajetórias de ground-truth. Isso captura a utilidade do mundo real e o efeito cumulativo de erros, que as avaliações estáticas offline perdem.
Insights de Design: Ao aplicar este framework a vários baselines, os autores demonstram que:
- A predição de ação é uma tarefa viável tanto para modelos grandes quanto pequenos.
- Mecanismos de abstenção são cruciais para a utilidade; os modelos devem aprender a suprimir predições quando a confiança é baixa.
- Gatilhos baratos (tentativas de predição frequentes) são mais eficazes do que esperar por momentos de alta confiança.
- Fine-tuning em sequências de operações específicas do domínio permite que modelos pequenos rivalizem com grandes LLMs zero-shot.

Os autores concluem que este benchmark e framework fornecem uma base necessária para o desenvolvimento de assistentes proativos e sem necessidade de comandos para planilhas, preenchendo a lacuna entre o preenchimento de código e a produtividade de planilhas. Eles incentivam explicitamente a pesquisa em métodos menos intensivos em energia (como os SLMs fine-tuned) para resolver este problema.

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets