Beyond Text and Tables: Vision-Language Model Integration… — Explicación divulgativa

Autores originales: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Publicado 2026-06-02

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina el mundo de la ciencia de materiales como una biblioteca masiva y caótica. Dentro de esta biblioteca hay millones de libros (artículos científicos) que contienen los secretos para nuevos materiales, como aleaciones más fuertes, mejores baterías o cerámicas más eficientes.

Durante mucho tiempo, las computadoras que intentaban leer estos libros tenían un punto ciego importante. Eran excelentes leyendo el texto y las tablas (las hojas de cálculo), pero eran completamente analfabetas cuando se trataba de las imágenes. En la ciencia de materiales, datos cruciales suelen estar ocultos dentro de gráficos y diagramas. Si una computadora no podía "ver" el gráfico, ese dato se perdía, quedando encerrado en un formato visual que la máquina no podía entender.

Este artículo presenta una mejora importante para una herramienta llamada ComProScanner. Piensa en ComProScanner como un robot bibliotecario súper rápido e incansable. Anteriormente, este robot solo podía leer las palabras y los números escritos en oraciones o tablas. Ahora, los autores le han dado ojos y un cerebro capaz de entender imágenes.

Así es como funciona el nuevo sistema, desglosado en conceptos simples:

1. Los nuevos "Ojos" (Modelos de Lenguaje y Visión)

Los autores equiparon al robot con un tipo especial de inteligencia artificial llamado Modelo de Lenguaje y Visión (VLM).

La analogía: Imagina que estás tratando de enseñarle a un robot a leer un mapa. Un robot normal puede leer los nombres de las calles (texto), pero no puede decirte qué tan empinadas son las colinas solo con mirar las líneas onduladas del mapa. El nuevo VLM es como un guía humano que puede mirar las líneas onduladas, entender que representan colinas y decirte exactamente qué tan altas son.
El trabajo: Este nuevo "ojo" escanea las figuras científicas, lee los ejes y las etiquetas, y extrae los números específicos ocultos dentro de las curvas y barras.

2. El Filtro Inteligente (FigureExtractor)

La biblioteca tiene millones de páginas, y no todas las páginas tienen un gráfico útil. Escanear cada imagen sería un desperdicio de tiempo y dinero.

La analogía: Antes de que el robot comience a leer cada imagen en la biblioteca, tiene un asistente inteligente llamado FigureExtractor. Este asistente mira los subtítulos (los títulos debajo de las imágenes) y las palabras clave. Si el subtítulo dice "Coeficiente Piezoeléctrico", el asistente lo marca como importante. Si dice "Biografía del Autor", lo ignora.
El resultado: El robot solo gasta su energía en los gráficos que realmente importan.

3. La Prueba del "Presupuesto" (Selección de Modelos)

Los autores no solo eligieron la IA más potente disponible; tuvieron que ser inteligentes con respecto al costo. Usar IA cuesta dinero (basado en cuánto "piensa").

La analogía: Imagina que estás contratando a cuatro detectives diferentes para resolver un caso. Quieres al mejor detective, pero también tienes un presupuesto estricto. No puedes contratar al más caro si cuesta una fortuna.
El resultado: Probaron cuatro "detectives" de alto nivel (modelos de IA). Descubrieron que Gemini-3-Flash-Preview era el ganador. Era el más preciso al leer los gráficos y además el más barato de ejecutar. Fue como encontrar un detective que resolvía el caso perfectamente pero cobraba menos que los demás.

4. Las Matemáticas "Difusas" (Umbrales de Error de Valor)

Leer un número de un gráfico impreso no siempre es perfecto. Si una línea está entre 10 y 11, ¿es 10.4 o 10.6?

La analogía: Si le preguntas a un humano: "¿Qué tan alto es ese edificio?", podría decir "Cerca de 50 pies". Si exiges que diga "Exactamente 50.000 pies", podría equivocarse porque el dibujo no es lo suficientemente preciso.
La innovación: Los autores añadieron una nueva regla a la evaluación. En lugar de demandar una coincidencia perfecta (por ejemplo, 10.00 vs 10.00), permiten un pequeño "margen de maniobra" (por ejemplo, 10.00 vs 10.5 sigue siendo un aprobado). Esto hace que la prueba sea más realista, reconociendo que leer un gráfico siempre implica un pequeño grado de estimación.

El Gran Logro

Antes de este artículo, ComProScanner era una herramienta que solo podía leer texto y tablas. Ahora, es una herramienta totalmente multimodal.

La metáfora: Es como actualizar un auto de uno que solo conduce por caminos pavimentados (texto/tablas) a un vehículo todoterreno que puede conducir por carreteras, caminos de tierra y colinas rocosas (texto, tablas y figuras).

La Conclusión:
Los autores construyeron con éxito un sistema que puede encontrar, leer y extraer automáticamente datos de gráficos científicos a través de muchos editores diferentes. Demostraron que, al usar el modelo de IA adecuado (Gemini-3-Flash-Preview) y permitir pequeños errores de medición, pueden convertir datos científicos visuales y desordenados en datos digitales limpios y organizados sin necesidad de que un humano los escriba manualmente. Esta es la primera vez que se construye un sistema tan completo y automatizado específicamente para la ciencia de materiales.

Resumen Técnico: Integración de Modelos de Visión y Lenguaje en ComProScanner

Planteamiento del Problema
La escala y la calidad de los conjuntos de datos de materiales son críticas para el descubrimiento de materiales basado en datos; sin embargo, las bases de datos existentes no logran capturar la gran mayoría de las propiedades medidas experimentalmente que se encuentran en la literatura científica. Mientras que los repositorios computacionales (por ejemplo, Materials Project, JARVIS-DFT) proporcionan datos de DFT de alto rendimiento, los datos experimentales para cerámicas funcionales, aleaciones y polímeros permanecen atrapados en formatos no estructurados a través de millones de artículos científicos. Los marcos de extracción automatizados previos, incluyendo el propio ComProScanner de los autores, han gestionado con éxito datos textuales y tabulares, pero han pasado por alto una proporción sustancial de datos de propiedades cuantitativas reportados exclusivamente en figuras científicas. Las soluciones actuales para la extracción de figuras dependen de herramientas de digitalización especializadas o de modelos emergentes de visión y lenguaje (VLM), pero no existía un marco unificado y de extremo a extremo para extraer datos de composición-propiedad de las figuras dentro de un único flujo de trabajo automatizado junto con texto y tablas.

Metodología
Los autores extienden el marco ComProScanner, un sistema multi-agente totalmente de extremo a extremo para la construcción automatizada de bases de datos, mediante la integración de capacidades nativas de extracción de figuras basadas en VLM. La implementación técnica involucra dos mecanismos primarios:

Filtrado y Preprocesamiento de Figuras: Se introdujo una utilidad FigureExtractor para filtrar figuras relevantes en todos los editores compatibles basándose en palabras clave de los pies de figura (por ejemplo, coeficiente piezoeléctrico $d_{33}$ , patrones de XRD). Esta utilidad gestiona la conversión a JPEG y se comparte entre los procesadores de los editores para reducir los costos de API.
Agente de Extracción de Gráficos: Se desarrolló un GraphExtractorTool (una herramienta base de CrewAI) para procesar las figuras guardadas. Dado un Identificador de Objeto Digital (DOI), este agente lee todas las figuras guardadas de un artículo y las pasa a un VLM configurable utilizando un prompt de extracción estructurado. El VLM devuelve pares de valores composición-propiedad en el esquema JSON estándar de ComProScanner.
Fallback Sensible a Imágenes: El DataExtractionFlow se actualizó para incluir un mecanismo de fallback sensible a imágenes. Si el RAG (Generación Aumentada por Recuperación) inicial basado en texto no logra identificar datos relevantes, el flujo verifica las figuras del DOI guardadas mediante el VLM. Si se encuentra evidencia gráfica relevante, la decisión se eleva a "sí", evitando que los artículos con datos exclusivamente gráficos sean descartados.
Criterios de Selección de Modelos: Se seleccionaron cuatro VLMs para su evaluación basados en el ranking de la tabla de clasificación LMArena Diagram (que clasifica la preferencia humana en la comprensión de diagramas) y un estricto criterio de costo de menos de $1.50 por millón de tokens de entrada. Los modelos seleccionados fueron Gemini-3-Flash-Preview, Gemini-2.5-Pro, GPT-5-Chat-Latest y GPT-5.1.
Marco de Evaluación: El sistema fue evaluado mediante un benchmark sobre 50 artículos de cerámica piezoeléctrica seleccionados aleatoriamente de un corpus de prueba de $d_{33}$ establecido. La evaluación se centró exclusivamente en el campo composition_property_values. Para abordar la incertidumbre inherente a la lectura de valores en gráficos, los autores introdujeron un parámetro de umbral de error de valor basado en rangos (por ejemplo, $\pm 0.5, \pm 1, \pm 2$ pC/N) en lugar de depender únicamente de la coincidencia exacta de valores.

Contribuciones Clave

Primer Pipeline Multimodal de Extremo a Extremo: El trabajo establece al ComProScanner integrado con VLM como la primera plataforma automatizada de materiales, capaz de extraer datos estructurados de composición-propiedad de texto, tablas y figuras dentro de un único pipeline unificado.
Nuevas Utilidades y Herramientas de Agente: La introducción de la utilidad FigureExtractor para el filtrado basado en subtítulos y la herramienta de agente GraphExtractorTool para la recuperación de datos impulsada por VLM.
Métricas de Evaluación Mejoradas: La inclusión de un parámetro de umbral de error de valor basado en rangos, proporcionando una evaluación físicamente más significativa de los valores numéricos de propiedades extraídos de figuras en comparación con la coincidencia exacta estricta.
Benchmarking de Costo-Eficiencia: Una comparación rigurosa de cuatro VLMs que demuestra que los modelos de alto rendimiento pueden seleccionarse basándose en un equilibrio entre precisión y costo de tokens de entrada.

Resultados
El benchmarking en el subconjunto de 50 artículos arrojó los siguientes hallazgos:

Desempeño: Gemini-3-Flash-Preview logró el mayor desempeño en todas las dimensiones, con una precisión de composición de 0.97 y un F1 normalizado de 0.97. También demostró la mayor precisión (0.96) y exhaustividad (0.95).
Desempeño Comparativo: Gemini-2.5-Pro tuvo un desempeño respetable con una precisión de composición de 0.86 y un F1 normalizado de 0.84, aunque mostró una exhaustividad menor en relación con su precisión, lo que sugiere una estrategia de extracción más conservadora. GPT-5-Chat-Latest y GPT-5.1 tuvieron un desempeño comparable entre sí, pero quedaron significativamente por detrás de los modelos Gemini, con precisiones de composición de 0.78 y puntuaciones de F1 normalizado alrededor de 0.71–0.72.
Costo-Eficiencia: Gemini-3-Flash-Preview fue identificado como el modelo más rentable, ofreciendo el mayor desempeño mientras demanda un costo de entrada por millón de tokens sustancialmente menor que sus competidores.
Recuperación de Datos: De los 50 artículos seleccionados, 48 produjeron datos evaluables tras la extracción y limpieza. El fallback sensible a imágenes evitó con éxito el descarte silencioso de artículos que contenían únicamente datos gráficos.

Significancia
El artículo sostiene que estas contribuciones establecen un nuevo estándar para la informática de materiales al cerrar la brecha entre la literatura publicada y los conjuntos de datos listos para máquinas para datos experimentales. Al demostrar que los VLMs rentables son suficientemente capaces para el despliegue a gran escala, los autores argumentan que la brecha sistemática en los marcos de minería de literatura existente —específicamente la incapacidad de procesar datos gráficos— ha sido abordada. La plataforma resultante permite la recuperación automatizada de pares composición-propiedad de gráficos y diagramas científicos en todos los editores compatibles, facilitando la creación de bases de datos de materiales multimodales y exhaustivas sin intervención humana. El trabajo concluye que la integración de VLMs en el pipeline de ComProScanner representa un paso decisivo hacia la extracción de datos de materiales totalmente automatizada y escalable.

Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy

1. Los nuevos "Ojos" (Modelos de Lenguaje y Visión)

2. El Filtro Inteligente (FigureExtractor)

3. La Prueba del "Presupuesto" (Selección de Modelos)

4. Las Matemáticas "Difusas" (Umbrales de Error de Valor)

El Gran Logro

Más como este