Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.

Haruto Yoshida, Keito Kudo, Yoichi Aoki, Ryota Tanaka, Itsumi Saito, Keisuke Sakaguchi, Kentaro Inui

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"대형 시각-언어 모델 (LVLM) 이 도표를 볼 때, 실제로 무엇을 보고 무엇을 놓치고 있는지"**를 해부한 연구입니다.

쉽게 비유하자면, AI 가 도표를 볼 때 '점 (노드)'은 잘 보지만, 점과 점 사이를 잇는 '화살표 (엣지)'는 보지 못하거나 늦게 알아차린다는 놀라운 사실을 발견한 이야기입니다.

이 연구의 핵심 내용을 일상적인 언어와 비유로 설명해 드릴게요.


🎨 1. 연구 배경: AI 는 도표를 잘 볼까?

우리는 AI 가 복잡한 도표 (유도, 흐름도, 네트워크图等) 를 잘 이해할 것이라고 믿습니다. 실제로 AI 는 도표의 내용을 설명하는 데는 꽤 능숙합니다. 하지만 "A 와 B 를 잇는 화살표의 방향은 어느 쪽이야?" 같은 질문을 하면 AI 는 자주 틀립니다.

왜 그럴까요? AI 가 도표를 어떻게 '생각'하고 있는지 그 내부 과정을 들여다보기 위해 연구팀은 인위적으로 만든 단순한 도표 (합성 데이터) 를 사용했습니다. 마치 수학 문제를 풀기 위해 복잡한 실제 상황 대신, 오직 'A+B=C'만 반복되는 연습 문제를 만들어 AI 의 뇌를 검사한 것과 같습니다.

🔍 2. 주요 발견: "점은 빠르고, 선은 늦다" (Nodes Are Early, Edges Are Late)

연구팀은 AI 의 뇌 (내부 레이어) 를 단계별로 쪼개어 정보를 어떻게 처리하는지 관찰했습니다. 여기서 발견한 놀라운 차이는 다음과 같습니다.

🟢 점 (노드) 정보: "초고속 처리"

  • 비유: 도표에 있는 색깔이 빨간 공이나 네모 모양 같은 '점'의 정보는 AI 의 **시각 부분 (Vision Encoder)**에서 아주 초기에, 즉 눈이 대충 보는 단계에서 이미 명확하게 인식됩니다.
  • 현실: "A 는 빨간색이야", "B 는 네모야" 같은 정보는 AI 의 시각 처리기가 바로 잡습니다. 마치 우리가 그림을 볼 때 사물의 모양과 색깔을 순식간에 알아보는 것과 같습니다.

🔴 선 (엣지) 정보: "늦은 도착"

  • 비유: 점과 점 사이를 잇는 화살표나 선의 정보는 시각 부분에서는 아직 잡히지 않거나, 선명하지 않습니다. 이 정보는 시각 처리기를 통과한 후, 언어 모델 (Language Model) 부분으로 넘어가서 문장을 읽는 단계에서야 비로소 명확해집니다.
  • 현실: "A 에서 B 로 가는 화살표가 있어"라는 정보는 AI 가 그림을 보고 끝낸 후, **"이제 이 그림을 언어로 해석해볼까?"**라고 생각할 때야 비로소 깨닫습니다. 마치 그림을 보고 "아, 저건 사람이다"는 바로 알지만, "저 사람이 누구를 보고 있는가?"는 그 사람의 표정이나 문맥을 분석해야 나중에야 알 수 있는 것과 같습니다.

🧠 3. 왜 이런 일이 일어날까? (AI 의 사고 과정)

이 연구는 AI 가 도표를 이해하는 방식이 두 단계로 나뉘어 있다고 설명합니다.

  1. 시각 단계 (눈): 사물의 모양, 색깔, 개수 같은 **'개별적인 사실'**을 빠르게 인식합니다.
  2. 언어 단계 (뇌): 점과 점 사이의 **관계 (화살표 방향, 연결성)**는 시각 정보만으로는 부족하고, **문맥과 논리 (언어적 추론)**가 필요하기 때문에 언어 모델 단계로 넘어가서야 처리됩니다.

결론: AI 가 화살표 방향을 틀리는 이유는, 화살표라는 정보가 그림을 보는 '눈' 단계에서는 선명하게 잡히지 않고, 나중에 '생각'하는 단계로 넘어가야만 선명해지기 때문입니다. 이 시간 차이 (지연) 때문에 AI 는 관계 파악에 서툽니다.

🛠️ 4. 실험 방법: AI 의 뇌를 '수술'하다

연구팀은 단순히 관찰만 한 게 아니라, AI 의 뇌를 인위적으로 조작해 보았습니다.

  • 수술: AI 가 그림을 볼 때, '점 (노드)' 정보를 잘 인식하는 부위의 신경 신호를 일부러 흐리게 만들었습니다.
  • 결과: 그랬더니 AI 가 "A 는 무슨 색깔이야?" 같은 질문을 못하게 되었습니다. 즉, 시각 단계에서 인식된 정보가 실제로 정답을 내는 데 결정적인 역할을 한다는 것을 증명했습니다.
  • 반면, 화살표 방향 같은 정보는 시각 단계에서 조작해도 큰 영향이 없었습니다. 이는 화살표 정보가 시각 단계가 아니라, 나중에 언어 단계에서 처리된다는 것을 다시 한번 확인시켜 주었습니다.

💡 5. 이 연구가 우리에게 주는 교훈

이 연구는 AI 가 도표를 이해할 때 **"무엇을 먼저 보고, 무엇을 나중에 생각하는지"**를 명확히 보여줍니다.

  • 현재의 한계: AI 는 도표의 '사물'은 잘 보지만, '관계'를 파악하는 데는 여전히 어려움을 겪고 있습니다.
  • 미래의 방향: 앞으로 더 똑똑한 도표 이해 AI 를 만들려면, 시각 단계에서부터 '관계 (화살표)' 정보를 더 잘 인식할 수 있도록 모델을 설계해야 합니다. 즉, "눈"이 "관계"까지 볼 수 있게 훈련시켜야 한다는 뜻입니다.

📝 한 줄 요약

"AI 는 도표의 '점 (사물)'은 눈으로 바로 보지만, '선 (관계)'은 언어로 생각할 때나 알아차립니다. 그래서 화살표 방향 같은 관계 파악은 여전히 AI 가 가장 어려워하는 부분입니다."