Enhancing Multi-Image Understanding through Delimiter Token Scaling

이 논문은 기존 LVLM 의 다중 이미지 입력 시 발생하는 정보 누출 문제를 해결하기 위해 추가적인 학습 비용 없이 델리미터 토큰의 은닉 상태를 스케일링하여 이미지 간 구분을 강화하고 추론 성능을 향상시키는 방법을 제안합니다.

Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe

게시일 2026-02-26
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "혼란스러운 회의실"과 "강력한 사회자"

1. 문제 상황: 여러 장의 사진을 한 번에 보면 AI 는 왜 헷갈릴까요?
마치 한 방에 사진 A, 사진 B, 사진 C가 동시에 펼쳐진 회의실이라고 상상해 보세요.
AI 는 이 모든 사진을 한꺼번에 보게 되는데, 문제는 어떤 정보가 어느 사진에 속하는지 구분이 안 된다는 것입니다.

  • 예시: 사진 A 에는 '고양이'가 있고, 사진 B 에는 '개'가 있습니다.
  • AI 의 실수 (정보 누수): AI 가 "고양이는 어디 있니?"라고 물었을 때, 정답은 사진 A 여야 하는데, 사진 B 의 '개' 정보와 섞여서 "고양이와 개가 같이 있네?"라고 엉뚱한 대답을 하거나, 두 사진을 하나로 뭉개버립니다.
  • 이를 논문에서는 **'크로스-이미지 정보 누수 (Cross-image Information Leakage)'**라고 부릅니다.

2. 기존 방법의 한계: "약한 구분선"
기존 AI 모델들은 사진을 구분하기 위해 사진 사이사이에 **'구분자 토큰 (Delimiter Token)'**이라는 특수한 부호를 넣었습니다.

  • 비유: 회의실 바닥에 약한 테이프를 붙여 영역을 나눈 것과 같습니다.
  • 하지만 이 테이프가 너무 약해서, AI 는 여전히 테이프를 넘나들며 정보를 섞어버립니다. "아, 여기는 사진 A 구나"라고 명확히 인지하지 못합니다.

3. 이 연구의 해결책: "강력한 사회자"를 세우다
이 연구팀은 그 약한 구분자 (테이프) 를 그냥 두지 않고, 그 위치의 **숨겨진 상태 (Hidden State) 를 '확대 (Scaling)'**했습니다.

  • 비유: 약한 테이프 대신, **매우 강력하고 목소리가 큰 '사회자'**를 사진 사이사이에 세운 것입니다.
  • 이 사회자는 "이건 사진 A! 저건 사진 B!"라고 큰 소리로 외치며, 사진 A 안의 정보들은 서로만 대화하게 하고, 사진 B 로 넘어가는 것을 막습니다.
  • 기술적으로는 구분자 토큰의 숫자를 키워서, AI 가 그 토큰을 더 중요하게 여기게 만든 것입니다.

4. 결과: "명확한 분리"
이 방법을 적용하자 AI 는 놀라운 변화를 보였습니다.

  • 사진 A의 정보는 사진 A 안에서만 깊게 이해하고, 사진 B의 정보는 사진 B 안에서만 처리합니다.
  • 마치 회의실에서 각 그룹이 서로의 이야기를 방해받지 않고 집중해서 논의하는 것과 같습니다.
  • 장점: AI 를 다시 가르치는 (학습) 비용이 전혀 들지 않고, 속도도 느려지지 않습니다. 그냥 "사회자"의 목소리만 키운 것뿐입니다.

💡 핵심 요약

  1. 문제: AI 는 여러 장의 사진을 볼 때, 사진들 사이의 정보가 섞여서 엉뚱한 답을 냅니다.
  2. 원인: 사진을 구분하는 '구분자'가 너무 약해서 정보를 막지 못합니다.
  3. 해결: 구분자의 역할을 **확대 (Scaling)**해서, 마치 강력한 벽이나 사회자처럼 작동하게 했습니다.
  4. 효과: 여러 장의 사진을 정확하게 구분해서 분석할 수 있게 되었고, 비용은 들지 않았습니다.

이 방법은 사진뿐만 아니라, 여러 개의 문서나 표를 분석할 때도 똑같이 적용되어 AI 가 정보를 더 똑똑하게 처리하게 해줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →