Beyond Text and Tables: Vision-Language Model Integration in ComProScanner… — 쉬운 설명

원저자: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

게시일 2026-06-02

📖 3 분 읽기☕ 가벼운 읽기

원저자: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

재료 과학의 세계를 거대하고 혼란스러운 도서관이라고 상상해 보십시오. 이 도서관 안에는 새로운 재료(더 강한 합금, 더 나은 배터리, 또는 더 효율적인 세라믹 등)의 비밀을 담고 있는 수백만 권의 책(과학 논문)이 들어 있습니다.

오랫동안 이 책들을 읽으려는 컴퓨터들은 큰 사각지대를 가지고 있었습니다. 컴퓨터는 텍스트와 표(스프레드시트)를 읽는 데는 뛰어났지만, 그림에 대해서는 완전히 문맹이었습니다. 재료 과학에서 중요한 데이터는 종종 그래프와 차트 안에 숨겨져 있습니다. 만약 컴퓨터가 그래프를 "볼" 수 없다면, 그 데이터는 기계가 이해할 수 없는 시각적 형식 속에 갇혀 버려지게 됩니다.

이 논문은 ComProScanner라고 불리는 도구의 중대한 업그레이드를 소개합니다. ComProScanner를 지치지 않고 매우 빠르게 일하는 숙련된 사서 로봇이라고 생각해 보십시오. 이전까지 이 로봇은 문장이나 표에 적힌 단어와 숫자만을 읽을 수 있었습니다. 이제 저자들은 이 로봇에게 이미지를 이해할 수 있는 눈과 두뇌를 달아주었습니다.

새로운 시스템이 어떻게 작동하는지, 간단한 개념별로 나누어 설명하겠습니다.

1. 새로운 "눈" (시각-언어 모델, Vision-Language Models)

저자들은 로봇에게 **시각-언어 모델(Vision-Language Model, VLM)**이라는 특별한 종류의 인공지능을 장착했습니다.

비유: 여러분이 로봇에게 지도를 읽는 법을 가르치고 있다고 상상해 보십시오. 일반적인 로봇은 거리 이름(텍스트)은 읽을 수 있지만, 지도 위의 구불구불한 선들을 보고 그것이 언덕의 경사도를 나타낸다는 것은 알지 못합니다. 새로운 VLM은 인간 가이드와 같습니다. 이 가이드는 구불구불한 선을 보고 그것이 언덕을 나타낸다는 것을 이해하며, 그 높이가 정확히 얼마인지 말해줄 수 있습니다.
역할: 이 새로운 "눈"은 과학적 도표를 스캔하고, 축과 라벨을 읽으며, 곡선과 막대 안에 숨겨진 특정 숫자들을 추출합니다.

2. 스마트 필터 (FigureExtractor)

도서관에는 수백만 페이지가 있지만, 모든 페이지에 유용한 그래프가 있는 것은 아닙니다. 모든 이미지를 스캔하는 것은 시간과 비용 낭비가 될 것입니다.

비유: 로봇이 도서관의 모든 그림을 읽기 시작하기 전에, FigureExtractor라는 스마트한 조수가 있습니다. 이 조수는 캡션(그림 아래의 제목)과 키워드를 살펴봅니다. 만약 캡션에 "압전 계수(Piezoelectric Coefficient)"라고 적혀 있다면, 조수는 이를 중요한 것으로 표시합니다. 만약 "저자 약력"이라고 적혀 있다면, 무시합니다.
결과: 로봇은 실제로 중요한 그래프에만 에너지를 쏟습니다.

3. "예산" 테스트 (모델 선택)

저자들은 단순히 가장 강력한 AI를 고른 것이 아니라, 비용 측면에서도 영리하게 행동해야 했습니다. AI를 사용하는 데는 (얼마나 많은 "사고"를 하는지에 따라) 비용이 듭니다.

비유: 여러분이 사건을 해결하기 위해 네 명의 서로 다른 탐정을 고용한다고 상상해 보십시오. 여러분은 최고의 탐정을 원하지만, 엄격한 예산도 가지고 있습니다. 비용이 너무 많이 든다면 가장 비싼 탐정을 고용할 수는 없습니다.
결과: 그들은 네 가지 최상위급 "탐정"(AI 모델)을 테스트했습니다. 그 결과, Gemini-3-Flash-Preview가 승자임을 발견했습니다. 이 모델은 그래프를 읽는 데 가장 정확했을 뿐만 아니라, 실행 비용도 가장 저렴했습니다. 이는 마치 사건을 완벽하게 해결하면서도 비용은 적게 청구하는 탐정을 찾아낸 것과 같습니다.

4. "퍼지(Fuzzy)" 수학 (값 오차 임계값)

인쇄된 그래프에서 숫자를 읽는 것이 항상 완벽할 수는 없습니다. 만약 선이 10과 11 사이에 있다면, 그것은 10.4일까요, 아니면 10.6일까요?

비유: 만약 여러분이 사람에게 "저 건물이 얼마나 높습니까?"라고 묻는다면, 그들은 "대략 50피트 정도 됩니다"라고 답할 수 있습니다. 하지만 만약 여러분이 "정확히 50.000피트입니다"라고 말하라고 요구한다면, 그림 자체가 정밀하지 않기 때문에 틀릴 수도 있습니다.
혁신: 저자들은 평가 방식에 새로운 규칙을 추가했습니다. 완벽한 일치(예: 10.00 vs 10.00)를 요구하는 대신, 작은 "여유 폭(wiggle room)"을 허용했습니다(예: 10.00 vs 10.5도 통과로 인정). 이는 그래프를 읽는 데 항상 약간의 추정이 포함된다는 점을 인정함으로써, 테스트를 더 현실적으로 만들어 줍니다.

거대한 성취

이 논문 이전의 ComProScanner는 텍스트와 표만 읽을 수 있는 도구였습니다. 이제 이것은 완전한 멀티모달(multimodal) 도구입니다.

비유: 이것은 자동차를 포장된 도로(텍스트/표)만 달릴 수 있는 차에서, 도로, 흙길, 그리고 바위 언덕까지 달릴 수 있는 **전지형 차량(all-terrain vehicle)**으로 업그레이드한 것과 같습니다 (텍스트, 표, 그리고 도표까지 모두 주행 가능).

핵심 요약:
저자들은 다양한 출판사의 과학적 그래프에서 데이터를 자동으로 찾고, 읽고, 추출할 수 있는 시스템을 성공적으로 구축했습니다. 그들은 적절한 AI 모델(Gemini-3-Flash-Preview)을 사용하고 작은 측정 오차를 허용함으로써, 사람이 직접 입력할 필요 없이 무질서한 시각적 과학 데이터를 깨끗하고 정리된 디지털 데이터로 변환할 수 있음을 증명했습니다. 이는 이처럼 완전하고 자동화된 시스템이 재료 과학을 위해 구축된 첫 번째 사례입니다.

기술 요약: ComProScanner 내 시각-언어 모델(VLM) 통합

문제 정의
재료 데이터셋의 규모와 품질은 데이터 기반 재료 발견에 매우 중요하지만, 기존 데이터베이스는 과학 문헌에서 발견되는 실험적으로 측정된 속성의 대다수를 포착하지 못하고 있다. Materials Project나 JARVIS-DFT와 같은 계산 저장소는 고처리량 DFT 데이터를 제공하지만, 기능성 세라믹, 합금 및 폴리머에 대한 실험 데이터는 수백만 개의 학술 논문 속에 비구조화된 형식으로 갇혀 있다. 저자들의 자체 프레임워크인 ComProScanner를 포함한 이전의 자동 추출 프레임워크들은 텍스트와 표 데이터는 성공적으로 처리했으나, 오직 도표(figure)로만 보고되는 상당한 비중의 정량적 속성 데이터를 간과해 왔다. 도표 추출을 위한 현재의 솔루션들은 특화된 디지털화 도구나 신흥 시각-언어 모델(VLM)에 의존하고 있으나, 단일 자동화 파이프라인 내에서 텍스트, 표와 함께 도표로부터 조성-속성 데이터를 추출할 수 있는 통합된 엔드 투 엔드(end-to-end) 프레임워크는 존재하지 않았다.

방법론
저자들은 VLM 기반의 도표 추출 기능을 통합함으로써, 자동화된 데이터베이스 구축을 위한 완전한 엔드 투 엔드 멀티 에이전트 시스템인 ComProScanner 프레임워크를 확장한다. 기술적 구현은 두 가지 주요 메커니즘을 포함한다:

도표 필터링 및 전처리: 캡션 키워드(예: 압전 계수 $d_{33}$ , XRD 패턴)를 기준으로 모든 지원되는 출판사의 관련 도표를 필터링하기 위해 FigureExtractor 유틸리티가 도입되었다. 이 유틸리티는 JPEG 변환을 처리하며, API 비용을 줄이기 위해 모든 출판사 프로세서 간에 공유된다.
그래프 추출 에이전트: 저장된 도표를 처리하기 위해 GraphExtractorTool(CrewAI BaseTool)이 개발되었다. 디지털 객체 식별자(DOI)가 주어지면, 이 에이전트는 논문의 모든 저장된 도표를 읽고 구조화된 추출 프롬프트를 사용하여 구성 가능한 VLM에 전달한다. VLM은 표준 ComProScanner JSON 스키마에 따라 조성-속성 값 쌍을 반환한다.
이미지 인지형 폴백(Fallback): DataExtractionFlow는 이미지 인지형 폴백 메커니즘을 포함하도록 업데이트되었다. 초기 텍스트 기반 검색 증강 생성(RAG)이 관련 데이터를 식별하는 데 실패할 경우, 흐로(flow)는 VLM을 통해 저장된 DOI 도표를 확인한다. 만약 관련 그래픽 증거가 발견되면 결정은 "예(yes)"로 격상되어, 그래프 데이터만 있는 논문이 폐기되는 것을 방지한다.
모델 선택 기준: LMArena Diagram 리더보드(도표 이해에 대한 인간 선호도 순위)와 백만 입력 토큰당 1.50달러 미만이라는 엄격한 비용 기준을 바탕으로 4개의 VLM이 평가를 위해 선정되었다. 선정된 모델은 Gemini-3-Flash-Preview, Gemini-2.5-Pro, GPT-5-Chat-Latest, GPT-5.1이다.
평가 프레임워크: 시스템은 확립된 $d_{33}$ 테스트 코퍼스에서 무작위로 선택된 50개의 압전 세라믹 논문을 대상으로 벤치마킹되었다. 평가는 오직 composition_property_values 필드에 집중되었다. 차트에서 값을 읽는 데 따르는 내재적 불확실성을 다루기 위해, 저자들은 단순한 정확한 값 매칭에 의존하는 대신 범위 기반 값 오차 임계값 파라미터(예: $\pm 0.5, \pm 1, \pm 2$ pC/N)를 도입하였다.

주요 기여

최초의 멀티모달 엔드 투 엔드 파이프라인: 본 연구는 VLM이 통합된 ComProScanner를 텍스트, 표, 도표로부터 구조화된 조성-속성 데이터를 단일 통합 파이프라인 내에서 추출할 수 있는 최초의 재료 특화형 완전 자동화 플랫폼으로 확립한다.
새로운 유틸리티 및 에이전트 도구: 캡션 기반 필터링을 위한 FigureExtractor 유틸리티와 VLM 기반 데이터 복구를 위한 GraphExtractorTool 에이전트의 도입.
향상된 평가 지표: 엄격한 정확한 매칭보다 도표에서 추출된 수치적 속성 값에 대해 더 물리적으로 의미 있는 평가를 제공하는 범위 기반 값 오차 임계값 파라미터의 포함.
비용 효율적인 모델 벤치마킹: 높은 성능을 가진 모델이 정확도와 입력 토큰 비용 사이의 균형을 바탕으로 선택될 수 있음을 보여주는 엄격한 4개 VLM 비교.

결과
50개 논문 서브셋에 대한 벤치마킹 결과는 다음과 같다:

성능: Gemini-3-Flash-Preview는 조성 정확도 0.97, 정규화된 F1 점수 0.97을 기록하며 모든 차원에서 가장 높은 성능을 달 remained 달성했다. 또한 가장 높은 정밀도(0.96)와 재현율(0.95)을 보였다.
비교 성능: Gemini-2.5-Pro는 조성 정확도 0.86, 정규화된 F1 0.84로 준수한 성능을 보였으나, 정밀도 대비 재현율이 낮게 나타나 보다 보수적인 추출 전략을 사용하는 것으로 나타났다. GPT-5-Chat-Latest와 GPT-5.1은 서로 유사한 성능을 보였으나 Gemini 모델들에 비해 크게 뒤처졌으며, 조성 정확도는 0.78, 정규화된 F1 점수는 0.71~0.72 수준이었다.
비용 효율성: Gemini-3-Flash-Preview는 경쟁 모델들보다 훨씬 낮은 백만 토큰당 입력 비용을 유지하면서도 가장 높은 성능을 제공하는 가장 비용 효율적인 모델으로 확인되었다.
데이터 복구: 선택된 50개의 논문 중 48개가 추출 및 정제 후 평가 가능한 데이터를 산출했다. 이미지 인지형 폴백은 그래프 데이터만 포함된 논문이 조용히 폐기되는 것을 성공적으로 방지했다.

의의
본 논문은 이러한 기여들이 실험적 데이터를 위한 기계 학습 가능 데이터셋과 출판된 문헌 사이의 간극을 메움으로써 재료 정보학(materials informatics)의 새로운 표준을 세운다고 주장한다. 비용 효율적인 VLM이 대규모 배포에 충분히 역량이 있음을 입증함으로써, 저자들은 기존 문헌 마이닝 프레임워크의 체계적인 공백(특히 그래픽 데이터를 처리하지 못하는 문제)이 해결되었음을 논한다. 결과적으로 이 플랫폼은 모든 지원되는 출판사에 걸쳐 과학적 차트와 플롯으로부터 조성-속성 쌍을 자동으로 복구할 수 있게 하여, 인간의 개입 없는 종합적인 멀티모달 재료 데이터베이스 구축을 용이하게 한다. 본 연구는 VLM을 ComProScanner 파이프라인에 통합하는 것이 완전히 자동화되고 확장 가능한 재료 데이터 추출을 향한 결정적인 단계임을 결론짓는다.

Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy

1. 새로운 "눈" (시각-언어 모델, Vision-Language Models)

2. 스마트 필터 (FigureExtractor)

3. "예산" 테스트 (모델 선택)

4. "퍼지(Fuzzy)" 수학 (값 오차 임계값)

거대한 성취

유사한 논문