Each language version is independently generated for its own context, not a direct translation.

🏮 란테른 (LanteRn): 그림을 '생각'하는 AI 의 새로운 방식

이 논문은 인공지능이 그림을 볼 때, 단순히 그림을 설명하는 말로 바꾸는 것이 아니라, 그림 자체를 머릿속에서 '생각'할 수 있게 해주는 새로운 기술을 소개합니다.

기존의 AI 는 그림을 볼 때 마치 "이것은 개이고, 저것은 나무입니다"라고 말로만 설명하려 했습니다. 하지만 이 방식은 복잡한 공간 관계나 미세한 디테일을 설명할 때 한계가 있었습니다. 마치 고해상도 사진을 저화량의 텍스트로 압축해서 전달하는 것과 같아서, 중요한 정보가 사라지곤 했죠.

이 문제를 해결하기 위해 제안된 **란테른 (LanteRn)**은 그림을 말로 바꾸지 않고, AI 의 머릿속 '잠재 공간 (Latent Space)'이라는 비밀 방에서 직접 그림을 생각하게 합니다.

🎨 1. 기존 방식 vs. 란테른 방식: 어떤 차이가 있을까요?

기존 AI (말로만 생각하는 AI):

상황: "자전거가 뭐 앞에 있나요?"라는 질문을 받았습니다.
AI 의 생각: "자전거를 찾아야 해... 아, 자전거 앞에는 주차 미터기가 있네. 그래서 답은 주차 미터기야."
문제점: AI 는 그림을 직접 보지 않고, 이미 말로 변환된 정보만 가지고 추론합니다. 마치 고해상도 원화를 흑백 복사기로 찍어서 그 복사본만 보고 그림을 분석하는 것과 같습니다. 중요한 색감이나 미세한 위치 정보가 사라질 수 있습니다.

란테른 (그림으로 생각하는 AI):

상황: 같은 질문을 받았습니다.
AI 의 생각: "자전거 위치를 찾아야 해." (말) → [잠재 공간으로 이동] → 머릿속에서 자전거와 주차 미터기의 이미지를 직접 그려보고 위치를 비교함 → "아, 주차 미터기가 자전거 바로 앞에 있네." (말)
장점: AI 는 **그림을 말로 바꾸지 않고, 머릿속에서 직접 그림을 '생각' (Visual Thought)**합니다. 마치 화가가 스케치북에 그림을 그리면서 문제를 풀고, 그 스케치북을 보며 최종 답을 말하는 것과 같습니다.

🛠️ 2. 란테른은 어떻게 배우나요? (두 단계 훈련)

란테른은 두 가지 단계로 훈련됩니다. 마치 요리 학교를 졸업하는 과정과 비슷합니다.

1 단계: 요리 실습 (지도 학습, SFT)

목표: AI 가 머릿속 그림을 그릴 때, 실제 사진의 특징을 정확히 따라 그리게 하는 것입니다.
방법: 교수가 (데이터) "이 그림의 이 부분 (예: 자전거 바퀴) 을 보고, 머릿속에 똑같은 이미지를 그려봐"라고 가르칩니다.
비유: 요리 견습생이 명품 셰프의 레시피와 완성된 요리를 보고, 맛과 모양을 그대로 따라 하는 단계입니다. 이때는 "정확한 재료를 어떻게 표현할지"를 배우는 것입니다.

2 단계: 요리 대회 (강화 학습, RL)

목표: 단순히 그림을 똑같이 그리는 게 아니라, 문제를 해결하는 데 가장 도움이 되는 그림을 그리게 하는 것입니다.
방법: AI 가 그림을 그리고 답을 냈을 때, 정답이면 "잘했어!"라는 점수를 줍니다. 틀리면 다시 시도하게 하죠.
비유: 이제 견습생은 실제 손님 (문제) 을 위해 요리합니다. 단순히 레시피를 따라 하는 게 아니라, "어떤 재료를 더 넣으면 맛이 더 잘 날까?"라고 창의적으로 생각하게 됩니다. 이 단계에서 AI 는 "이 문제는 이 그림의 어떤 부분을 강조해야 풀 수 있을까?"를 스스로 학습합니다.

🚀 3. 왜 이 기술이 중요할까요?

더 빠른 생각: 그림을 말로 다 설명할 필요 없이, 머릿속의 '잠재 그림'으로 빠르게 비교하고 분석할 수 있어 계산 자원을 아낄 수 있습니다.
더 정확한 답: 복잡한 공간 관계 (예: "A 가 B 의 왼쪽 위에 있는 C 의 뒤에 있다") 나 미세한 디테일을 파악하는 데 훨씬 뛰어납니다.
효율성: 거대한 모델을 키우는 대신, 작은 모델이 머릿속에서 더 똑똑하게 생각하게 만들어 성능을 높였습니다.

💡 결론

란테른은 AI 에게 **"그림을 말로 번역하지 말고, 그림으로 생각하라"**는 새로운 철학을 심어줍니다. 이는 AI 가 인간의 시각적 사고 방식을 더 잘 모방하게 하여, 복잡한 시각적 문제를 해결하는 능력을 획기적으로 향상시킵니다.

마치 등불 (Lantern) 이 어두운 방을 비추듯, 란테른은 AI 의 어두운 '시각적 추론' 영역을 밝게 비춰주는 기술이라고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현재의 한계: 대규모 멀티모달 모델 (LMMs) 은 언어 기반 추론에서는 탁월한 성능을 보이지만, 시각적 추론 (Visual Reasoning) 에서는 여전히 어려움을 겪습니다. 대부분의 기존 모델은 시각 정보를 입력 단계에서 인코딩한 후, 모든 추론 과정을 텍스트 (언어) 로 변환하여 수행합니다 ('Thinking about images').
문제점: 고차원의 시각적 정보를 저대역폭의 기호적 언어로 변환하는 과정은 미세한 공간적 관계나 시각적 구조를 포착하는 데 한계가 있습니다.
기존 접근법의 부족:
- 도구 기반 (Tool-based): 외부 도구 (자르기, 객체 감지 등) 를 호출하는 방식은 계산 오버헤드가 크고 미리 정의된 도구에 의존합니다.
- 이미지 생성 기반 (Image generation): 추론 과정에서 중간 이미지를 생성하는 방식은 픽셀 공간에서 추론하므로 불필요한 계산 비용이 발생하고, 작업과 무관한 세부 사항에 자원을 낭비합니다.
목표: LMM 이 텍스트와 함께 압축된 잠재 시각 표현 (Latent Visual Representations) 을 사용하여 추론할 수 있도록 하여, 픽셀 공간이나 텍스트가 아닌 잠재 공간 (Latent Space) 에서 직접 시각적 추론을 수행하는 프레임워크 개발.

2. 제안 방법론: LanteRn (Methodology)

LanteRn 은 비언어적 "생각 (Thought)" 벡터를 생성하고 텍스트 생성과 교차하여 사용하는 하이브리드 추론 프레임워크입니다.

2.1 모델 아키텍처

기반 모델: Qwen2.5-VL 아키텍처를 기반으로 합니다.
제어 토큰: 추론 모드 전환을 위한 세 가지 특수 토큰을 어휘에 추가합니다.
- <|lvr_start|>: 잠재 시각 추론 시작.
- <|lvr_sep|>: 잠재 벡터 구분.
- <|lvr_end|>: 잠재 시각 추론 종료.
하이브리드 추론 과정:
1. 텍스트 모드: 일반적인 언어 모델처럼 토큰을 예측.
2. 시각 잠재 모드 (Visual Latent Mode): <|lvr_start|> 이후 $K$ 개의 시간 단계 동안 언어 모델 헤드를 우회하여, 최종 트랜스포머 레이어의 연속적인 숨겨진 상태 (Hidden States) 를 직접 출력합니다. 이 $K$ 개의 벡터가 시각적 "생각" 블록을 형성합니다.
3. 모델은 이 잠재 벡터들을 주의 (Attention) 메커니즘을 통해 참조하여 추론을 이어가지만, 이를 텍스트로 변환하지는 않습니다.

2.2 2 단계 학습 전략

1 단계: 지도 미세 조정 (Supervised Fine-Tuning, SFT)

목적: 잠재 상태를 시각적 특징에 정렬 (Grounding) 시켜 모델이 시각적 내용을 "상상"할 수 있도록 함.
데이터: Visual-CoT 데이터셋을 기반으로 구축. 이미지, 질문, 정답, 그리고 시각적 영역 (Bounding Box) 을 참조하는 추론 트레이스가 포함됨.
지도 신호: 인간의 주석이 아닌, 모델의 비전 인코더 (Vision Encoder) 를 '교사 (Teacher)'로 활용.
- 추론 트레이스가 참조하는 이미지 영역 (Bounding Box) 에서 비전 인코더가 추출한 특징 맵을 평균 풀링하여 목표 잠재 벡터 ( $Z_{target}$ ) 를 생성.
손실 함수 (Loss):
- $L_{text}$ : 텍스트 생성 크로스 엔트로피 손실.
- $L_{latent}$ : 생성된 잠재 벡터와 목표 시각 특징 벡터 간의 평균 제곱 오차 (MSE) 회귀 손실.
- 총 손실: $L_{LanteRn} = L_{text} + \gamma L_{latent}$

2 단계: 강화 학습 (Reinforcement Learning, RL)

목적: SFT 는 시각적 재현에 치중할 수 있으므로, RL 을 통해 작업 성공도 (Task Utility) 에 기반한 추론으로 전환.
알고리즘: GRPO (Group Relative Policy Optimization) 사용.
- 이산적 토큰 공간과 연속적 잠재 벡터가 혼합된 하이브리드 액션 공간 처리.
- 잠재 상태 재생 (Latent State Replay): 샘플링 시 생성된 잠재 벡터를 고정하여 정책 업데이트 시 중요도 샘플링 비율 (Importance Ratio) 의 불안정성을 해결.
보상 함수 (Reward):
- 정확도 보상 ( $R_{acc}$ ): 최종 답변의 정답 여부 (희소 보상).
- 형식 보상 ( $R_{fmt}$ ): 잠재 추론 블록 (<|lvr_start|> 등) 의 명시적 사용을 장려하여 텍스트-only 추론으로 붕괴되는 것을 방지.

3. 주요 기여 (Key Contributions)

잠재 공간 추론 프레임워크: LMM 이 픽셀 생성이나 외부 도구 호출 없이, 내부적으로 압축된 연속적 시각 벡터를 생성하고 참조하며 추론할 수 있는 새로운 아키텍처 제안.
2 단계 학습 파이프라인:
- 비전 인코더를 활용한 지도 미세 조정 (Grounding) 을 통해 잠재 공간의 시각적 정합성 확보.
- 강화 학습 (Outcome-driven) 을 통해 추론을 시각적 재현이 아닌 작업 성공에 최적화된 방향으로 정제.
효율성: 고해상도 이미지 생성이나 반복적인 도구 호출 없이도 미세한 시각적 추론 능력을 향상시켜 계산 효율성을 높임.

4. 실험 결과 (Results)

평가 벤치마크: VisCoT, V ⋆ (시각 검색), Blink (미세한 시각 지각 및 공간 추론).
SFT 단계 결과:
- Qwen2.5-VL-3B 베이스라인 대비 전반적인 성능 향상.
- 특히 객체 위치 파악 (Object Localization) 및 직접 귀속 (Direct Attribution) 과 같은 지각 중심 작업에서 큰 개선 (예: BlinkOL 0.45 → 0.52).
- 하지만 복잡한 관계 추론 (Relative Position) 에서는 텍스트-only 기반 (NTP) 과 유사하거나 오히려 낮은 성능을 보임 (잠재 표현이 추론에 완전히 활용되지 않음).
RL 단계 결과:
- LantErn-SFT-8 모델에 RL 을 적용한 결과, 모든 벤치마크에서 일관된 성능 향상.
- BlinkRP (상대적 위치) 에서 0.68 → 0.81로 급격히 개선.
- V ⋆RP 및 BlinkOL에서도 NTP 기반 RL 모델보다 우월한 성능 달성.
- 3B 파라미터 모델이 7B 모델 수준의 성능을 달성하여, 모델 크기 확장 없이 잠재 추론을 통해 계산 효율성을 높일 수 있음을 입증.

5. 의의 및 결론 (Significance)

패러다임 전환: "이미지에 대해 생각하기 (Thinking about images)"에서 "이미지로 생각하기 (Thinking with images)" 로의 전환을 내부적 잠재 공간에서 실현.
계산 효율성: 불필요한 픽셀 생성이나 외부 도구 호출 없이, 모델 내부의 잠재 공간에서 시각적 정보를 유지하며 추론함으로써 효율적인 멀티모달 추론 가능.
미래 전망: 잠재 표현의 크기를 작업 복잡도에 따라 동적으로 조절하거나, 잠재 의존성을 시각화하는 등의 후속 연구를 통해 더욱 발전 가능.

이 논문은 LMM 이 시각적 정보를 텍스트로 변환하는 과정에서 발생하는 정보 손실 문제를 해결하고, 내부 잠재 공간을 활용한 효율적이고 정교한 시각적 추론을 가능하게 하는 중요한 방향성을 제시합니다.

LanteRn: Latent Visual Structured Reasoning