Beyond Text and Tables: Vision-Language Model… — Explicação em linguagem simples

Autores originais: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Publicado 2026-06-02

📖 4 min de leitura☕ Leitura rápida

Autores originais: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine o mundo da ciência dos materiais como uma biblioteca massiva e caótica. Dentro desta biblioteca existem milhões de livros (artigos científicos) contendo os segredos para novos materiais — como ligas mais fortes, baterias melhores ou cerâmicas mais eficientes.

Por muito tempo, computadores tentando ler esses livros tinham um ponto cego importante. Eles eram excelentes em ler o texto e as tabelas (as planilhas), mas eram completamente analfabetos quando se tratava das imagens. Na ciência dos materiais, dados cruciais cost often estão escondidos dentro de gráficos e diagramas. Se o computador não conseguisse "ver" o gráfico, esse dado era perdido, trancado em um formato visual que a máquina não conseguia entender.

Este artigo apresenta uma atualização importante para uma ferramenta chamada ComProScanner. Pense no ComProScanner como um robô bibliotecário superveloz e incansável. Anteriormente, este robô conseguia ler apenas as palavras e números escritos em frases ou tabelas. Agora, os autores lhe deram olhos e um cérebro capaz de compreender imagens.

Aqui está como o novo sistema funciona, dividido em conceitos simples:

1. Os Novos "Olhos" (Modelos de Linguagem e Visão)

Os autores equiparam o robô com um tipo especial de inteligência artificial chamado Modelo de Linguagem e Visão (VLM).

A Analogia: Imagine que você está tentando ensinar um robô a ler um mapa. Um robô normal consegue ler os nomes das ruas (texto), mas não consegue dizer o quão íngremes são as colinas apenas olhando para as linhas sinuosas no mapa. O novo VLM é como um guia humano que pode olhar para as linhas sinuosas, entender que elas representam colinas e dizer exatamente o quão altas elas são.
O Trabalho: Este novo "olho" escaneia as figuras científicas, lê os eixos e rótulos, e extrai os números específicos escondidos dentro das curvas e barras.

2. O Filtro Inteligente (FigureExtractor)

A biblioteca possui milhões de páginas, e nem toda página tem um gráfico útil. Escanear cada imagem seria um desperdício de tempo e dinheiro.

A Analogia: Antes do robô começar a ler cada imagem na biblioteca, ele tem um assistente inteligente chamado FigureExtractor. Este assistente olha para as legendas (os títulos abaixo das figuras) e palavras-chave. Se a legenda disser "Coeficiente Piezoelétrico", o assistente a marca como importante. Se disser "Biografia do Autor", ele a ignora.
O Resultado: O robô gasta sua energia apenas nos gráficos que realmente importam.

3. O "Teste de Orçamento" (Seleção de Modelo)

Os autores não escolheram apenas a IA mais poderosa disponível; eles tiveram que ser inteligentes em relação ao custo. Usar IA custa dinheiro (baseado em quanto ela "pensa").

A Analogia: Imagine que você está contratando quatro detetives diferentes para resolver um caso. Você quer o melhor detetive, mas tem um orçamento rigoroso. Você não pode contratar o mais caro se ele custar uma fortuna.
O Resultado: Eles testaram quatro "detetives" de alto nível (modelos de IA). Descobriram que o Gemini-3-Flash-Preview foi o vencedor. Ele foi o mais preciso na leitura dos gráficos e o mais barato para operar. Foi como encontrar um detetive que resolveu o caso perfeitamente, mas cobrou menos que os outros.

4. A Matemática "Fuzzy" (Limiares de Erro de Valor)

Ler um número de um gráfico impresso nem sempre é perfeito. Se uma linha está entre 10 e 11, é 10,4 ou 10,6?

A Analogia: Se você perguntar a um humano: "Qual a altura daquele prédio?", ele pode dizer "Cerca de 50 pés". Se você exigir que ele diga "Exatamente 50,000 pés", ele pode errar porque o desenho não é preciso o suficiente.
A Inovação: Os autores adicionaram uma nova regra à avaliação. Em vez de exigir uma correspondência perfeita (ex: 10,00 vs 10,00), eles permitem uma pequena "margem de manobra" (ex: 10,00 vs 10,5 ainda é considerado um sucesso). Isso torna o teste mais realista, reconhecendo que ler um gráfico sempre envolve uma pequena dose de estimativa.

A Grande Conquista

Antes deste artigo, o ComProScanner era uma ferramenta que só conseguia ler texto e tabelas. Agora, ele é uma ferramenta totalmente multimodal.

A Metáfora: É como atualizar um carro de um que só dirige em estradas pavimentadas (texto/tabelas) para um veículo todo-terreno que pode dirigir em estradas, caminhos de terra e colinas rochosas (texto, tabelas e figuras).

O Ponto Principal:
Os autores construíram com sucesso um sistema que pode encontrar, ler e extrair dados de gráficos científicos automaticamente em diversos editores. Eles provaram que, ao usar o modelo de IA correto (Gemini-3-Flash-Preview) e permitir pequenos erros de medição, eles podem transformar dados visuais científicos desorganizados em dados digitais limpos e organizados sem a necessidade de um humano digitá-los manualmente. Esta é a primeira vez que um sistema completo e automatizado assim é construído especificamente para a ciência dos materiais.

Resumo Técnico: Integração de Modelos de Visão-Linguagem no ComProScanner

Definição do Problema
A escala e a qualidade dos conjuntos de dados de materiais são críticas para a descoberta de materiais orientada por dados, contudo, as bases de dados existentes falham em capturar a vasta maioria das propriedades experimentais medidas na literatura científica. Enquanto os repositórios computacionais (ex: Materials Project, JARVIS-DFT) fornecem dados de DFT de alto rendimento, os dados experimentais para cerâmicas funcionais, ligas e polímeros permanecem presos em formatos não estruturados em milhões de artigos científicos. Estruturas de extração automatizadas anteriores, incluindo o próprio ComProScanner dos autores, processaram com sucesso dados textuais e tabulares, mas negligenciaram uma proporção substancial de dados quantitativos de propriedades reportados exclusivamente em figuras científicas. As soluções atuais para extração de figuras dependem de ferramentas de digitalização especializadas ou de modelos emergentes de visão-linguagem (VLMs), mas não existia um framework unificado e de ponta a ponta para extrair dados de composição-propriedade de figuras dentro de um único pipeline automatizado junto com textos e tabelas.

Metodologia
Os autores estendem o framework ComProScanner, um sistema multiagente totalmente de ponta a ponta para construção automatizada de bases de dados, integrando capacidades nativas de extração de figuras baseadas em VLM. A implementação técnica envolve dois mecanismos primários:

Filtragem e Pré-processamento de Figuras: Uma utilidade FigureExtractor foi introduzida para filtrar figuras relevantes em todos os editores suportados com base em palavras-chave de legendas (ex: coeficiente piezoelétrico $d_{33}$ , padrões de XRD). Esta utilidade lida com a conversão para JPEG e é compartilhada entre os processadores de editores para reduzir os custos de API.
Agente de Extração de Gráficos: Um GraphExtractorTool (uma ferramenta BaseTool do CrewAI) foi desenvolvido para processar as figuras salvas. Dado um Identificador de Objeto Digital (DOI), este agente lê todas as figuras salvas de um artigo e as passa para um VLM configurável usando um prompt de extração estruturado. O VLM retorna pares de valores composição-propriedade no esquema JSON padrão do ComProScanner.
Fallback Sensível à Imagem: O DataExtractionFlow foi atualizado para incluir um mecanismo de fallback sensível à imagem. Se o RAG (Geração Aumentada de Recuperação) inicial baseado em texto falhar em identificar dados relevantes, o fluxo verifica as figuras do DOI salvo via VLM. Se evidência gráfica relevante for encontrada, a decisão é elevada para "sim", evitando que artigos com dados apenas em gráficos sejam descartados.
Critérios de Seleção de Modelo: Quatro VLMs foram selecionados para avaliação com base no ranking de preferência humana em compreensão de diagramas do LMArena Diagram e um critério rigoroso de custo inferior a $1,50 por milhão de tokens de entrada. Os modelos selecionados foram Gemini-3-Flash-Preview, Gemini-2.5-Pro, GPT-5-Chat-Latest e GPT-5.1.
Framework de Avaliação: O sistema foi testado em 50 artigos de cerâmica piezoelétrica selecionados aleatoriamente de um corpus de teste de $d_{33}$ estabelecido. A avaliação focou exclusivamente no campo composition_property_values. Para lidar com a incerteza inerente à leitura de valores em gráficos, os autores introduziram um parâmetro de limiar de erro de valor baseado em intervalo (ex: $\pm 0,5, \pm 1, \pm 2$ pC/N) em vez de depender apenas da correspondência exata de valores.

Principais Contribuições

Primeiro Pipeline Multimodal de Ponta a Ponta: O trabalho estabelece o ComProScanner integrado com VLM como a primeira plataforma específica para materiais, totalmente automatizada, capaz de extrair dados estruturados de composição-propriedade de textos, tabelas e figuras dentro de um único pipeline unificado.
Novas Utilidades e Ferramentas de Agente: A introdução da utilidade FigureExtractor para filtragem baseada em legenda e do agente GraphExtractorTool para recuperação de dados impulsionada por VLM.
Métricas de Avaliação Aprimoradas: A inclusão de um parâmetro de limiar de erro de valor baseado em intervalo, proporcionando uma avaliação fisicamente mais significativa de valores numéricos de propriedades extraídos de figuras em comparação com a correspondência exata estrita.
Benchmarking de Custo-Eficiência: Uma comparação rigorosa de quatro VLMs demonstrando que modelos de alto desempenho podem ser selecionados com base no equilíbrio entre precisão e custo de token de entrada.

Resultados
O benchmarking no subconjunto de 50 artigos yielded os seguintes achados:

Desempenho: O Gemini-3-Flash-Preview alcançou o maior desempenho em todas as dimensões, com uma acurácia de composição de 0,97 e um F1 normalizado de 0,97. Também demonstrou a maior precisão (0,96) e recall (0,95).
Desempenho Comparativo: O Gemini-2.5-Pro apresentou um desempenho respeitável com uma acurácia de composição de 0,86 e F1 normalizado de 0,84, embora tenha mostrado um recall menor em relação à precisão, sugerindo uma estratégia de extração mais conservadora. O GPT-5-Chat-Latest e o GPT-5.1 tiveram desempenho comparável entre si, mas ficaram significativamente atrás dos modelos Gemini, com acurácias de composição de 0,78 e escores F1 normalizados em torno de 0,71–0,72.
Custo-Eficiência: O Gemini-3-Flash-Preview foi identificado como o modelo mais econômico, oferecendo o maior desempenho enquanto demanda um custo de entrada por milhão de tokens substancialmente menor que seus concorrentes.
Recuperação de Dados: Dos 50 artigos selecionados, 48 geraram dados avaliáveis após extração e limpeza. O fallback sensível à imagem evitou com sucesso o descarte silencioso de artigos contendo apenas dados em gráficos.

Significância
O artigo afirma que estas contribuições estabelecem um novo padrão para a informática de materiais ao preencher a lacuna entre a literatura publicada e os conjuntos de dados prontos para máquinas para dados experimentais. Ao demonstrar que VLMs de baixo custo são suficientemente capazes para implantação em larga escala, os autores argumentam que a lacuna sistemática nos frameworks de mineração de literatura existentes — especificamente a incapacidade de processar dados gráficos — foi abordada. A plataforma resultante permite a recuperação automatizada de pares composição-propriedade de gráficos e diagramas científicos em todos os editores suportados, facilitando a criação de bases de dados de materiais multimodais e abrangentes sem intervenção humana. O trabalho conclui que a integração de VLMs no pipeline do ComProScanner representa um passo decisivo para a extração de dados de materiais totalmente automatizada e escalável.

Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy

1. Os Novos "Olhos" (Modelos de Linguagem e Visão)

2. O Filtro Inteligente (FigureExtractor)

3. O "Teste de Orçamento" (Seleção de Modelo)

4. A Matemática "Fuzzy" (Limiares de Erro de Valor)

A Grande Conquista

Mais como este