Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

이 논문은 다이어그램의 구조적 특성을 반영한 '하드' 샘플과 두 가지 특수 손실 함수를 도입한 대비 학습 방식을 제안하여, 기존 멀티모달 모델이 다이어그램 이해에서 보이는 한계를 극복하고 이미지 - 텍스트 매칭 및 시각적 질문 답변 성능을 크게 향상시켰음을 보여줍니다.

Hiroshi Sasaki

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 복잡한 도표나 흐름도 (Flowchart) 를 제대로 이해하도록 가르치는 새로운 방법"**에 대한 연구입니다.

기존의 AI 모델 (CLIP 같은 것들) 은 사진이나 그림 같은 자연스러운 이미지를 잘 이해하지만, 화살표, 박스, 기호로 이루어진 도표를 보면 "아, 이건 뭐지?" 하며 헷갈려 합니다. 이 논문은 그 문제를 해결하기 위해 고안된 3 가지 핵심 전략을 소개합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🎒 비유: "도표 이해하기"를 위한 새로운 훈련 교실

상상해 보세요. AI 는 이제 막 도표라는 새로운 과목을 배우는 학생이고, 우리는 그 학생을 가르치는 선생님입니다.

1. 문제점: "사진은 잘 보는데, 도표는 왜?"

기존의 AI 는 아름다운 꽃 사진이나 고양이 사진을 보면 "아, 꽃이네!"라고 바로 맞춥니다. 하지만 흐름도를 보면, "사람이 화살표를 따라 걷는 그림인데, 글자가 뭐라고 쓰여 있나?" 정도만 보고, **"어떤 순서로 진행되는지"**나 **"화살표의 방향이 중요한지"**는 잘 모릅니다. 마치 지도는 보는데, 길 찾기는 못 하는 사람과 같습니다.

2. 해결책 1: "조각내서 배우기" (Granulation)

도표는 한 장의 큰 그림으로 보면 너무 복잡합니다. 그래서 이 연구는 도표를 레고 블록처럼 작은 조각으로 쪼갭니다.

  • 비유: 거대한 퍼즐을 한 번에 맞추려 하지 말고, **"A 에서 B 로 가는 화살표"**처럼 작은 연결고리 하나하나를 따로 떼어내어 공부시키는 것입니다. 이렇게 하면 AI 가 복잡한 구조를 하나하나 뜯어보며 이해하기 쉬워집니다.

3. 해결책 2: "혼란스러운 시험지" 만들기 (Hard Samples)

이게 이 논문의 가장 창의적인 부분입니다. 학생이 진짜로 잘하려면, 가장 헷갈리는 오답을 보여줘야 합니다.

  • 진짜 정답 (Positive): "A 에서 B 로 가는 화살표"가 있는 도표.
  • 어려운 오답 (Hard Negative): 화살표 방향을 거꾸로 하거나, 글자를 살짝 바꿔서 **"A 에서 B 로 가는 게 아니라, B 에서 A 로 가는 거야!"**라고 속이는 도표.
    • 비유: "사과"와 "배"를 구별하는 건 쉽지만, **"빨간 사과"와 "빨간 사과 (하지만 씨앗이 하나 빠진 것)"**를 구별하는 건 훨씬 어렵습니다. AI 가 이 미세한 차이를 구별하도록 훈련시키는 것입니다.
  • 거꾸로 된 정답 (Hard Positive): 내용은 똑같은데, 화살표 방향만 거꾸로 (위에서 아래가 아니라 아래에서 위로) 그린 도표.
    • 비유: 같은 이야기를 하더라도, "아침에 일어나서 밥을 먹고"와 "밥을 먹고 일어나서"는 순서가 다릅니다. AI 가 순서와 구조가 중요하다는 것을 깨닫게 하죠.

4. 해결책 3: "공통점과 차이점 분리하기" (Orthogonal Loss)

AI 가 오답을 구별할 때, 정답과 오답이 공유하는 공통 정보 (예: 같은 단어 '사과'가 들어감) 까지 지워버리면 안 됩니다.

  • 비유: 두 사람이 얼굴이 비슷하다고 해서 (공통점), 그 사람의 특징 (차이점) 까지 무시하면 안 됩니다. 이 연구는 AI 가 "공통된 부분 (단어)"은 기억하되, "다른 부분 (화살표 방향, 구조)"만 확실히 구분하도록 훈련시킵니다. 마치 유리창처럼, 공통된 배경은 투명하게 유지하면서 앞의 사물 (차이점) 만 선명하게 비추는 기술입니다.

🏆 결과: 어떻게 변했나요?

이 새로운 훈련 방법 (SaCLIP) 을 적용한 결과:

  1. 도표와 글자 매칭: "이 그림이 무슨 말인가?"를 맞출 때, 기존 모델보다 훨씬 정확해졌습니다.
  2. 질문 답변 (VQA): "이 흐름도에서 '시작' 다음에 뭐가 나오나요?" 같은 질문에 대해, 기존 모델보다 훨씬 똑똑하게 답했습니다.

💡 요약

이 논문은 **"AI 가 도표를 볼 때, 단순히 그림을 보는 게 아니라 그 안에 숨겨진 '구조'와 '순서'를 읽을 수 있도록, 헷갈리게 만드는 훈련 문제를 만들고, 공통점과 차이점을 명확히 가르치는 새로운 교육법"**을 제안했습니다.

앞으로 이 기술은 복잡한 기술 문서, 비즈니스 프로세스, 의료 지도 등 기호로 된 정보를 이해해야 하는 모든 분야에서 AI 의 능력을 크게 향상시킬 것으로 기대됩니다.