Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

El artículo presenta BRTR, un marco de agentes multimodales que supera las limitaciones de los métodos actuales mediante un ciclo iterativo de recuperación y razonamiento para lograr un análisis y edición de hojas de cálculo empresariales complejas con un rendimiento superior y total auditabilidad.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes que resolver un misterio muy complicado, pero en lugar de pistas en una habitación, las pistas están dispersas en millones de hojas de cálculo (como Excel), llenas de números, gráficos, imágenes y notas pegadas en diferentes archivos.

Hasta ahora, las Inteligencias Artificiales (IA) intentaban leer todo el archivo de una sola vez, como si un estudiante intentara memorizar un libro entero en un segundo. El problema es que se mareaban, olvidaban detalles importantes o se quedaban sin "espacio en la cabeza" (el límite de memoria de la IA) porque los archivos son gigantescos.

Este paper presenta una nueva solución llamada BRTR (que significa algo como "Más allá de las filas, hacia el razonamiento"). Aquí te explico cómo funciona con una analogía sencilla:

🕵️‍♂️ La Analogía: El Detective vs. El Fotógrafo

1. El problema de los métodos antiguos (El Fotógrafo):
Imagina a un fotógrafo que intenta resolver el misterio. Le das un archivo de Excel de 100 páginas. El fotógrafo intenta tomar una foto instantánea de todo el archivo y luego le muestra la foto a la IA.

  • El problema: Si el archivo es muy grande, la foto sale borrosa (se pierde detalle) o la cámara no cabe todo el papel (se desborda la memoria). Si la IA necesita buscar un dato específico en la página 90, no puede "zoomar" porque ya le diste la foto completa y está saturada.

2. La solución BRTR (El Detective Agente):
BRTR no es un fotógrafo, es un detective privado muy organizado. En lugar de mirar todo de golpe, sigue estos pasos:

  • Paso 1: El Planificador (El Jefe de la Investigación):
    Cuando le haces una pregunta (ej: "¿Cuánto gastó la empresa en marketing en 2023?"), el detective no se lanza a adivinar. Primero, dibuja un mapa. Divide el problema en tareas pequeñas:

    • Tarea A: Buscar la hoja de "Marketing".
    • Tarea B: Buscar la columna de "2023".
    • Tarea C: Buscar si hay gráficos adjuntos.
  • Paso 2: La Búsqueda Iterativa (El Detective en Acción):
    Aquí está la magia. El detective usa herramientas especiales para buscar poco a poco.

    • Primero, busca solo las filas de "Marketing".
    • Lee lo que encuentra.
    • Pensamiento: "Hmm, esto no es suficiente, necesito ver los gráficos adjuntos".
    • Vuelve a buscar específicamente los gráficos.
    • Lee los gráficos.
    • Pensamiento: "¡Ah! Ahora sí tengo toda la información".

    A diferencia de los métodos antiguos que solo hacen una búsqueda y se rinden, BRTR puede volver a preguntar y buscar de nuevo tantas veces como sea necesario hasta tener la respuesta perfecta. Es como si el detective pudiera caminar por el archivo, abrir cajones, mirar dentro, cerrar y abrir otro, sin perderse.

  • Paso 3: El Archivero Inteligente (Gestión de Memoria):
    Como el detective puede buscar muchas veces, se le acumula mucha información en la mesa. Para no desbordarse, BRTR tiene un truco: borra las fotos viejas de la mesa y deja solo las notas escritas (los datos importantes), guardando solo la imagen más reciente si es necesaria. Así, su "cabeza" nunca se llena demasiado.

🏆 ¿Por qué es tan bueno?

El paper probó a BRTR contra otros métodos en tres pruebas muy difíciles (llamadas benchmarks), donde los archivos tenían millones de celdas y dependían entre sí (como un rompecabezas gigante).

  • Resultado: BRTR acertó casi el 99% de las veces.
  • Comparación: Los métodos antiguos (el "Fotógrafo") acertaban solo el 70-75%.
  • La clave: La capacidad de volver a buscar (iterar) y de dividir el trabajo en tareas pequeñas.

💡 En resumen

Imagina que antes, para resolver un problema en Excel, tenías que leer todo el libro de una vez y rezar para que no te olvidaras de nada. Con BRTR, tienes un asistente inteligente que:

  1. Te hace un plan paso a paso.
  2. Busca la información exacta que necesita, una pieza a la vez.
  3. Si algo no cuadra, vuelve a buscar sin perder el hilo.
  4. Te entrega la respuesta final con una precisión increíble, incluso si el archivo es del tamaño de una biblioteca.

Es como pasar de intentar adivinar el final de una película viendo solo el póster, a tener un detective que revisa cada escena, cada diálogo y cada detalle hasta resolver el misterio perfectamente.