Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 복잡한 도표나 흐름도 (Flowchart) 를 제대로 이해하도록 가르치는 새로운 방법"**에 대한 연구입니다.

기존의 AI 모델 (CLIP 같은 것들) 은 사진이나 그림 같은 자연스러운 이미지를 잘 이해하지만, 화살표, 박스, 기호로 이루어진 도표를 보면 "아, 이건 뭐지?" 하며 헷갈려 합니다. 이 논문은 그 문제를 해결하기 위해 고안된 3 가지 핵심 전략을 소개합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🎒 비유: "도표 이해하기"를 위한 새로운 훈련 교실

상상해 보세요. AI 는 이제 막 도표라는 새로운 과목을 배우는 학생이고, 우리는 그 학생을 가르치는 선생님입니다.

1. 문제점: "사진은 잘 보는데, 도표는 왜?"

기존의 AI 는 아름다운 꽃 사진이나 고양이 사진을 보면 "아, 꽃이네!"라고 바로 맞춥니다. 하지만 흐름도를 보면, "사람이 화살표를 따라 걷는 그림인데, 글자가 뭐라고 쓰여 있나?" 정도만 보고, **"어떤 순서로 진행되는지"**나 **"화살표의 방향이 중요한지"**는 잘 모릅니다. 마치 지도는 보는데, 길 찾기는 못 하는 사람과 같습니다.

2. 해결책 1: "조각내서 배우기" (Granulation)

도표는 한 장의 큰 그림으로 보면 너무 복잡합니다. 그래서 이 연구는 도표를 레고 블록처럼 작은 조각으로 쪼갭니다.

비유: 거대한 퍼즐을 한 번에 맞추려 하지 말고, **"A 에서 B 로 가는 화살표"**처럼 작은 연결고리 하나하나를 따로 떼어내어 공부시키는 것입니다. 이렇게 하면 AI 가 복잡한 구조를 하나하나 뜯어보며 이해하기 쉬워집니다.

3. 해결책 2: "혼란스러운 시험지" 만들기 (Hard Samples)

이게 이 논문의 가장 창의적인 부분입니다. 학생이 진짜로 잘하려면, 가장 헷갈리는 오답을 보여줘야 합니다.

진짜 정답 (Positive): "A 에서 B 로 가는 화살표"가 있는 도표.
어려운 오답 (Hard Negative): 화살표 방향을 거꾸로 하거나, 글자를 살짝 바꿔서 **"A 에서 B 로 가는 게 아니라, B 에서 A 로 가는 거야!"**라고 속이는 도표.
- 비유: "사과"와 "배"를 구별하는 건 쉽지만, **"빨간 사과"와 "빨간 사과 (하지만 씨앗이 하나 빠진 것)"**를 구별하는 건 훨씬 어렵습니다. AI 가 이 미세한 차이를 구별하도록 훈련시키는 것입니다.
거꾸로 된 정답 (Hard Positive): 내용은 똑같은데, 화살표 방향만 거꾸로 (위에서 아래가 아니라 아래에서 위로) 그린 도표.
- 비유: 같은 이야기를 하더라도, "아침에 일어나서 밥을 먹고"와 "밥을 먹고 일어나서"는 순서가 다릅니다. AI 가 순서와 구조가 중요하다는 것을 깨닫게 하죠.

4. 해결책 3: "공통점과 차이점 분리하기" (Orthogonal Loss)

AI 가 오답을 구별할 때, 정답과 오답이 공유하는 공통 정보 (예: 같은 단어 '사과'가 들어감) 까지 지워버리면 안 됩니다.

비유: 두 사람이 얼굴이 비슷하다고 해서 (공통점), 그 사람의 특징 (차이점) 까지 무시하면 안 됩니다. 이 연구는 AI 가 "공통된 부분 (단어)"은 기억하되, "다른 부분 (화살표 방향, 구조)"만 확실히 구분하도록 훈련시킵니다. 마치 유리창처럼, 공통된 배경은 투명하게 유지하면서 앞의 사물 (차이점) 만 선명하게 비추는 기술입니다.

🏆 결과: 어떻게 변했나요?

이 새로운 훈련 방법 (SaCLIP) 을 적용한 결과:

도표와 글자 매칭: "이 그림이 무슨 말인가?"를 맞출 때, 기존 모델보다 훨씬 정확해졌습니다.
질문 답변 (VQA): "이 흐름도에서 '시작' 다음에 뭐가 나오나요?" 같은 질문에 대해, 기존 모델보다 훨씬 똑똑하게 답했습니다.

💡 요약

이 논문은 **"AI 가 도표를 볼 때, 단순히 그림을 보는 게 아니라 그 안에 숨겨진 '구조'와 '순서'를 읽을 수 있도록, 헷갈리게 만드는 훈련 문제를 만들고, 공통점과 차이점을 명확히 가르치는 새로운 교육법"**을 제안했습니다.

앞으로 이 기술은 복잡한 기술 문서, 비즈니스 프로세스, 의료 지도 등 기호로 된 정보를 이해해야 하는 모든 분야에서 AI 의 능력을 크게 향상시킬 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현재의 한계: CLIP(Contrastive Language-Image Pre-training) 과 같은 다중 모달 모델은 자연 이미지와 텍스트 간의 정렬에서 뛰어난 성과를 보이지만, 다이어그램 (Flowchart, 차트 등) 과 같은 특수한 시각 도메인에서는 성능이 저하됩니다.
근본 원인:
- 자연 이미지는 픽셀 기반의 시각적 특징에 의존하는 반면, 다이어그램은 구조화되고 상징적인 정보 (노드, 화살표, 레이블, 논리적 흐름) 를 담고 있습니다.
- 기존 모델은 객체 (명사) 중심의 학습에 치중하여 다이어그램 내의 노드 간 관계, 화살표 방향, 구조적 맥락과 같은 중요한 정보를 제대로 이해하지 못합니다.
- 기존 대규모 데이터셋 (LAION 등) 이 자연 현상에 집중되어 있어, 다이어그램의 정교한 구조와 텍스트 설명 간의 미세한 차이를 학습할 수 있는 데이터가 부족합니다.

2. 제안된 방법론 (Methodology)

저자는 다이어그램의 고유한 구조적 특성을 활용하기 위해 구조 인식 대비 학습 (Structure-aware Contrastive Learning) 을 제안합니다. 이 방법론은 크게 세 가지 단계로 구성됩니다.

2.1. 다이어그램 데이터 세분화 (Granulation)

전체 다이어그램을 CLIP 모델이 처리하기 쉬운 크기로 분해합니다.
Mermaid 코드와 같은 다이어그램 정의 코드를 사용하여 인접한 3 개의 노드 (Triplet) 조합을 추출하고, 이를 다시 작은 모듈화된 다이어그램 (Granulated Diagram) 으로 재구성합니다.
각 세분화된 조각에 대해 "노드 A 에서 노드 B 로 화살표가 가리킨다"와 같은 텍스트 캡션을 생성합니다.

2.2. 하드 샘플 합성 (Hard Sample Synthesis)

기존 대비 학습의 한계를 극복하기 위해 하드 포지티브 (Hard Positive) 와 하드 네거티브 (Hard Negative) 샘플을 인위적으로 생성합니다.

하드 포지티브 (Hard Positive):
- 의미: 원본과 의미적으로 동일하지만 시각적으로 다른 샘플.
- 생성 방식: 다이어그램의 흐름 방향을 상향식 (Bottom-up) 으로 반전시키는 등 시각적 변형을 가하되, 논리적 구조는 유지합니다.
하드 네거티브 (Hard Negative):
- 의미: 시각적으로 유사하지만 의미적으로 다른 (오류가 있는) 샘플.
- 생성 방식:
  - 노드 레이블 무작위 교체.
  - 화살표 방향 반전.
  - 화살표 일부 제거.
  - 텍스트 설명 내 노드 이름 교체.

2.3. 새로운 손실 함수 (Loss Functions)

기존 CLIP 손실 함수에 두 가지 특수한 손실 함수를 추가하여 학습합니다.

구조 인식 대비 손실 (Structure-aware Contrastive Loss, SC Loss):
- 원본 (Anchor), 하드 포지티브, 하드 네거티브 간의 관계를 모두 고려합니다.
- 목표: 원본과 하드 포지티브 사이의 거리는 줄이고, 원본과 하드 네거티브 사이의 거리는 늘립니다.
- 기존 NegCLIP/TripletCLIP 이 교차 모달 (Inter-modal) 거리만 고려했다면, SC Loss 는 모달 내 (Intra-modal) 및 모달 간 (Inter-modal) 거리를 모두 최적화하여 더 일관된 구조적 표현을 학습하게 합니다.
구별 인자 직교 손실 (Distinct Factor Orthogonal Loss, DO Loss):
- 문제점: 하드 네거티브 샘플도 원본과 공유하는 정보 (예: 동일한 노드 이름) 를 가지고 있어, SC Loss 만으로는 이 공유 정보를 파괴하거나 혼동할 수 있습니다.
- 해결: 공유 정보 (Shared factors) 와 고유 정보 (Distinct factors) 를 분리 (Disentanglement) 합니다.
- 원리: 탈레스의 정리 (Thales's theorem) 를 활용하여, 공유 벡터가 고유 벡터들 사이에서 직교하는 관계를 유지하도록 정규화 항을 추가합니다. 이를 통해 모델은 공통된 요소는 유지하면서, 구조적 차이 (화살표 방향 등) 만을 구별하는 능력을 향상시킵니다.

총 손실 함수: $L = L_{CL} + \lambda_{SC}L_{SC} + \lambda_{DO}L_{DO}$

3. 주요 기여 (Key Contributions)

다이어그램 특화 하드 샘플 생성 기술: 다이어그램의 미세하지만 결정적인 차이 (화살표 방향, 노드 연결 등) 를 강조하는 하드 포지티브/네거티브 쌍을 생성하는 새로운 전처리 기법을 제안했습니다.
구조 인식 학습 프레임워크: 하드 샘플을 활용하여 의미적으로 유효한 다이어그램 관계와 그 반례 (Counterfactual) 를 구별하도록 설계된 두 가지 새로운 손실 함수 (SC Loss, DO Loss) 를 도입했습니다.
성능 검증: Flowchart 데이터셋 (FlowVQA) 을 사용하여 이미지 - 텍스트 매칭 및 시각적 질문 응답 (VQA) 작업에서 기존 CLIP 및 NegCLIP, TripletCLIP 기반 파인튜닝 방법보다 월등히 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

실험은 FlowVQA 데이터셋을 기반으로 진행되었으며, 주요 결과는 다음과 같습니다.

이미지 - 텍스트 매칭 (Image-Text Matching):
- 제안된 방법 (SaCLIP) 은 Recall@1, MRR 등 모든 지표에서 기존 CLIP 파인튜닝 및 NegCLIP/TripletCLIP 보다 높은 성능을 기록했습니다.
- 특히 하드 네거티브가 포함된 어려운 조건 (Top-3 Retrieval) 에서 DO Loss 를 적용한 모델이 가장 큰 성능 향상을 보이며, 혼란스러운 방해 요소 (Distractors) 를 효과적으로 구별함을 입증했습니다.
시각적 질문 응답 (VQA):
- LLaVA-v1.6-Mistral-7B 모델의 비전 인코더를 제안된 모델로 교체하여 평가했습니다.
- BERTScore 기준 정밀도 (Precision) 와 F1 점수가 기존 방법들보다 향상되었으며, 특히 DO Loss가 VQA 작업에서 의미 정렬을 개선하는 데 핵심적인 역할을 함을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

의의: 이 연구는 일반적인 비전 - 언어 모델이 다이어그램과 같은 구조화된 시각 데이터를 이해하는 데 있어 구조적 정보의 중요성을 강조합니다. 단순히 객체를 인식하는 것을 넘어, 요소 간의 관계와 논리적 흐름을 학습하는 새로운 패러다임을 제시합니다.
한계:
- 다이어그램 편집을 위해 원본 코드 (Mermaid 등) 가 필요하며, 이미지만 제공될 경우 이미지 역렌더링 (Derendering) 기술의 정확도에 의존해야 합니다.
- DO Loss 는 임베딩 공간이 유클리드 공간에 근사한다고 가정하므로, 비유클리드 공간에서는 일반화 가능성이 제한될 수 있습니다.
미래 전망: 제안된 프레임워크를 차트, 그래프 등 다른 구조화된 시각 데이터로 확장하고, 더 유연한 손실 함수를 연구하여 다양한 도메인의 다이어그램 이해 능력을 고도화할 수 있을 것으로 기대됩니다.

이 논문은 다중 모달 모델의 다이어그램 이해 능력을 획기적으로 향상시킬 수 있는 구조 인식 대비 학습 전략을 제시함으로써, 기술 문서 해석, 자동화된 지식 추출 등 다양한 응용 분야에 기여할 것으로 예상됩니다.