Autores originales: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Publicado 2026-06-15

📖 1 min de lectura☕ Lectura para el café

Autores originales: Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Aún no hay explicación disponible en este idioma.

Prueba: DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Resumen Técnico: Un Benchmark y un Marco de Evaluación para la Predicción de la Siguiente Acción en Hojas de Cálculo

Declaración del Problema

Si bien la completación predictiva de código ha acelerado significativamente la productividad de los desarrolladores en la ingeniería de software, características análogas para la autoría de hojas de cálculo son virtualmente inexistentes. A pesar de la ubicuidad de las hojas de cálculo, las herramientas de automatización actuales están limitadas a escenarios específicos (por ejemplo, generación de fórmulas o derivación de columnas mediante FlashFill) o requieren la invocación explícita de agentes de lenguaje natural por parte del usuario. Para ediciones rutinarias y repetitivas, la sobrecarga de generar prompts y esperar respuestas suele exceder el costo de la manipulación directa, lo que lleva a los usuarios a optar por la entrada manual.

Las barreras primarias para desarrollar predictores de la siguiente acción generalizados para hojas de cálculo son dos:

Escasez de Datos: A diferencia del código, que posee historiales de versiones detallados, los corpora públicos de hojas de cálculo carecen de historiales de edición finos. Los conjuntos de datos existentes suelen capturar únicamente instantáneas estáticas o evoluciones de alto nivel.
Complejidad de la Evaluación: El espacio de acciones de una hoja de cálculo es complejo, involucrando operaciones espaciales, temporales y compuestas. Además, una evaluación estática de "dado un historial $x$ , predecir la siguiente acción $y$ " (forzado por el profesor) no logra capturar la naturaleza dinámica de la interacción del usuario, donde las predicciones aceptadas alteran el estado futuro y las necesidades subsiguientes del usuario.

Metodología

1. Construcción del Conjunto de Datos de Referencia (Benchmark)

Para abordar la falta de historiales de edición, los autores curaron un conjunto de datos de 52 trayectorias de alta calidad que totalizan 11,907 operaciones. Estas trayectorias reconstruyen la creación de hojas de cálculo a partir de libros de trabajo públicos y estáticos. El proceso de construcción involucra tres etapas:

Arranque en Frío Simbólico (Symbolic Cold-Start): Un modelo de lenguaje-visión (VLM) anota las hojas estáticas con metadatos semánticos (regiones, dependencias, rangos pegados). Heurísticas simbólicas luego descomponen el estado final en operaciones a nivel de celda, fusionando operaciones idénticas adyacentes en acciones de rango.
Refinamiento mediante LLM: Un bucle de juez-editor basado en LLM identifica y corrige patrones antinaturales en las secuencias simbólicas (por ejemplo, consolidar el formato disperso celda por celda en operaciones de rango, eliminar formatos errantes).
Anotación Humana: Anotadores humanos realizan un pase final para corregir las subsecuencias antinaturales restantes. Este paso es sustancial; la distancia de edición normalizada media entre las trayectorias pre-anotación y las finales es de 0.69, con 19 de 52 trayectorias efectivamente reescritas desde cero.

El conjunto de datos cubre diversas operaciones que incluyen entrada de datos, combinación (merging), formato (fuente, relleno, borde, alineación), pegado y autorrelleno (autofill).

2. Marco de Evaluación Online

El artículo propone un marco de evaluación online que simula un flujo de trabajo real de un usuario, yendo más allá de la puntuación estática paso a paso.

Proceso: El sistema observa un historial de $n$ acciones y predice una secuencia de cero o más acciones.
Aceptación/Rechazo: Basado en una heurística de aceptación (por ejemplo, umbrales de precisión, ahorro de acciones del usuario), la predicción es aceptada o rechazada.
Adaptación del Estado:
- Si se Acepta: La trayectoria de verdad de campo (ground-truth) futura se actualiza dinámicamente. Las predicciones exitosas eliminan las operaciones futuras correspondientes. Los falsos positivos activan la inserción de operaciones inversas (por ejemplo, limpiar un relleno incorrecto) para deshacer errores.
- Si se Rechaza: La predicción se descarta y la siguiente acción del usuario de la verdad de campo se añade al historial.
Terminación: El bucle se repite hasta alcanzar la hoja de cálculo objetivo o superar un umbral de pasos.

3. Métricas

El marco calcula métricas en tres granularidades:

Nivel de Propiedad/Acción: Clasifica pares individuales (celda, propiedad) como Verdaderos Positivos (TP), Falsos Positivos (FP), Falsos Negativos (FN) o Desajustes (MM).
Nivel de Predicción: Mide la Precisión (fracción de propiedades correctas) y las Acciones de Usuario Ahorradas (UAS), que cuantifica la reducción neta del esfuerzo del usuario si la predicción fuera aceptada.
Nivel de Emulación: Rastrea la Tasa de Aceptación (AR), la Precisión Promedio y la Cobertura de Predictibilidad (PCOV) —la fracción de acciones teóricamente predictibles (determinadas por un oráculo) que el sistema realmente produjo.

4. Solvers de Referencia (Baselines)

El marco evalúa tres familias de solvers:

LLMs Zero-shot: Modelos (variantes de GPT-5) con prompts de historial y sintaxis de operación.
SLMs Ajustados (Fine-tuned): Modelos SmolLM2 (135M y 360M de parámetros) entrenados en secuencias de operaciones sintéticas.
ML Clásico: Modelos N-gram (entrenados y online), LSTM y XGBoost.

Resultados Clave

Aprendibilidad: La tarea es aprendible. Existe una clara correlación entre la capacidad del modelo y el rendimiento. GPT-5 con razonamiento alcanza un 32.7% de UAS en entornos de repredicción de una sola acción, mientras que GPT-5 mini alcanza un 18.0%. El SmolLM2-360M ajustado (26.8% UAS) se acerca al rendimiento de GPT-5 (27.4%) a pesar de ser significativamente más pequeño.
La Importancia de la Abstención: Los modelos que carecen de la capacidad de abstenerse tienen un desempeño pobre. La heurística "ALWAYS" (aceptar cada predicción) produce un -19.2% de UAS (ahorro neto negativo) debido a una baja precisión (9.3%). Esto confirma que saber cuándo no predecir es tan crítico como la precisión de la predicción.
Frecuencia de Disparo (Trigger Frequency): Invocar el predictor después de cada acción del usuario ( $s=1$ ) genera el mayor UAS (27.4%) a pesar de una tasa de aceptación (30.9%) menor en comparación con disparos menos frecuentes. Esto sugiere que los disparos frecuentes y económicos son valiosos, ya que los usuarios pueden rechazar sugerencias incorrectas sin una penalización significativa.
Categorías de Acción: Las operaciones con carga de contenido (Entrada, Pegado, Relleno) se aceptan en tasas más altas que las de presentación (Alineación, Borde). El ajuste fino (fine-tuning) mejora significamente el rendimiento en categorías estructurales (Borde, Relleno, Autorrelleno) donde los modelos base tuvieron dificultades.
Longitud de Contexto: Aumentar la ventana de contexto de 32 a 128 operaciones mejora el UAS, pero las ganancias disminuyen rápidamente más allá de 128, sugiriendo que la mayor parte de la señal predictiva reside en el historial reciente.
Longitud de Predicción: En entornos de múltiples acciones, un alcance de predicción ilimitado funciona mejor. Restringir el número de acciones por predicción reduce el UAS, lo que indica que los modelos se autorregulan bien cuando se les permite emitir secuencias más largas para patrones repetitivos.

Significancia y Contribuciones

El artículo realiza tres contribuciones principales:

Conjunto de Datos de Referencia: El primer conjunto de datos curado de 52 trayectorias de creación de hojas de cálculo (11,907 operaciones) con verdad de campo validada por humanos, abordando la falta crítica de datos de historial de edición.
Marco de Evaluación Online: Una metodología de evaluación novedosa que modela el comportamiento de aceptación del usuario y adapta dinámicamente las trayectorias de verdad de campo. Esto captura la utilidad del mundo real y la propagación de errores, lo cual las evaluaciones estáticas offline omiten.
Perspectivas de Diseño: Al aplicar este marco a varios baselines, los autores demuestran que:
- La predicción de acciones es una tarea viable tanto para modelos grandes como pequeños.
- Los mecanismos de abstención son cruciales para la utilidad; los modelos deben aprender a suprimir las predicciones cuando la confianza es baja.
- Los disparadores económicos (intentos de predicción frecuentes) son más efectivos que esperar a momentos de alta confianza.
- El ajuste fino (fine-tuning) en secuencias de operaciones específicas del dominio permite que los modelos pequeños igualen a los grandes LLMs zero-shot.

Los autores concluyen que este benchmark y marco proporcionan una base necesaria para desarrollar asistentes proactivos y sin modelos para hojas de cálculo, cerrando la brecha entre la completación de código y la productividad en hojas de cálculo. Expresan explícitamente su interés en investigar métodos menos intensivos en energía (como los SLMs ajustados) para resolver este problema.

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets