Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 그림을 볼 때, 어떻게 더 정확하게 '손가락'으로 가리킬 수 있을까?"**에 대한 새로운 해결책을 제시합니다.

기존의 AI 는 그림을 분석할 때 마치 "글자"로 좌표를 말하는 방식 (예: "x 는 3, y 는 4") 을 썼는데, 이는 마치 "숫자를 글자로 적어서 계산기처럼 사용하려는" 것과 비슷해 비효율적이고 오해의 소지가 많았습니다.

이 연구에서는 AI 가 그림을 볼 때 숫자 그 자체 (연속된 값) 로 직접 손가락을 움직이게 하는 새로운 방법인 NV-CoT를 제안합니다.

🎨 쉬운 비유로 설명하는 NV-CoT

1. 기존 방식: "글자로 된 지도" (Text-based CoT)

기존 AI 는 그림에서 중요한 부분을 찾을 때, **"x 좌표는 345, y 좌표는 123"**이라고 글자 (Token) 로 말했습니다.

문제점:
- 오해의 소지: AI 는 "345"와 "346"을 완전히 다른 글자로 인식합니다. 하지만 실제로는 두 숫자가 아주 가깝습니다. 마치 "345 번"과 "346 번"을 완전히 다른 나라로 생각하는 것과 같아, 아주 작은 오차도 큰 실수로 간주합니다.
- 부자연스러움: 숫자를 글자로 쪼개서 말해야 하므로, "3.11"과 "3.9" 중哪个가 큰지 비교하는 것조차 AI 에게는 헷갈리는 일이 됩니다.

2. 새로운 방식: "직관적인 손가락" (NV-CoT)

이 논문은 AI 에게 **"글자로 말하지 말고, 숫자 그 자체로 손가락을 움직여라"**라고 가르칩니다.

해결책: AI 는 "345"라는 글자를 말하지 않고, 45.234... 라는 정확한 숫자 값으로 직접 박스 (사각형) 를 그립니다.
비유:
- 기존 방식은 **"지도에 '서울역 3 번 출구'라고 글자로 적어서 찾아가는 것"**입니다.
- NV-CoT 는 **"눈을 감고도 손가락으로 정확히 '여기'를 가리키는 것"**입니다.

3. 왜 더 좋은가요? (학습과 훈련)

SFT (지도 학습): 정답이 있는 상태에서 훈련할 때는, AI 가 그리는 박스가 정답 박스에 얼마나 가까운지 **거리 (오차)**를 직접 계산해서 가르칩니다. (예: "너가 그린 박스가 1cm 정도 빗나가네, 고쳐봐"라고 자연스럽게 가르침)
RL (강화 학습): 정답이 없는 상태에서 훈련할 때는, AI 가 무작위로 조금씩 변형된 박스를 여러 개 그려보게 합니다. (예: "이 박스는 성공, 저 박스는 실패"를 경험하며 스스로 배우는 것) 이때 AI 는 "내가 얼마나 확신 있는가?"를 나타내는 **불확실성 (분산)**까지 함께 예측합니다.

🚀 핵심 성과: 무엇이 달라졌나요?

정확한 손가락질 (Localizaton Precision):
- AI 가 그림 속 사물을 찾을 때, 정확히 사물 위에 박스를 씌웁니다. 기존 방식은 사물 주변을 빙빙 돌거나 너무 넓게 잡는 경우가 많았는데, NV-CoT 는 딱 맞게 잡습니다.
- 비유: 기존 AI 는 "저기 저쪽 어딘가에 개가 있어"라고 말했지만, NV-CoT 는 "개 코 바로 위에 손가락을 얹었어"라고 정확히 가리킵니다.
더 빠른 학습 (Faster Convergence):
- 글자로 좌표를 맞추느라 헤매는 시간이 줄어, 더 빨리 똑똑해집니다.
최종 답변의 정확도 향상:
- 사물을 정확히 찾으면, 그 사물에 대한 질문 (예: "이 가방 색깔은?") 에 대한 답도 훨씬 정확해집니다.

💡 결론

이 연구는 AI 가 그림을 볼 때 "글자라는 낱말"을 버리고 "숫자라는 직관"을 사용하게 함으로써, 마치 유아기 아이처럼 자연스럽고 정확하게 사물을 인식하고 가리키게 만든 것입니다.

기존의 복잡한 건축 구조를 바꾸지 않고도 (최소한의 수정으로), AI 의 눈과 손가락을 더 정교하게 만들어 시각적 추론 능력을 획기적으로 높인 획기적인 방법입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Thinking with Images as Continuous Actions (NV-CoT)

이 논문은 멀티모달 대형 언어 모델 (MLLM) 이 이미지 내의 특정 영역을 추론할 때, 기존의 텍스트 기반 좌표 표현의 한계를 극복하고 **연속적인 수치 좌표 (Continuous Numerical Coordinates)**를 직접 생성하여 시각적 추론 (Visual Chain-of-Thought) 을 수행하는 새로운 프레임워크인 NV-CoT를 제안합니다.

1. 문제 정의 (Problem)

기존의 멀티모달 모델은 이미지 내 관심 영역 (Region of Interest) 을 식별하기 위해 주로 두 가지 방식을 사용하지만, 각각 근본적인 한계가 존재합니다.

텍스트 기반 좌표 (Textified Coordinates): 모델이 [x1, y1, x2, y2]와 같은 텍스트 토큰으로 좌표를 생성합니다.
- 모달리티 불일치 (Modality Mismatch): 시각 세계의 좌표는 연속적인 값이지만, 모델은 이를 이산적인 (discrete) 텍스트 토큰으로 예측합니다. 교차 엔트로피 손실 함수를 사용할 경우, 3.1과 3.2라는 연속적으로 가까운 값이 토큰 단위에서는 완전히 다른 것으로 간주되어 기하학적 근접성을 무시합니다.
- 의미 분열 (Semantic Fragmentation): 숫자가 여러 개의 관련 없는 서브 토큰으로 분할되어, 수치 비교나 논리적 추론이 취약하고 환각 (hallucination) 을 일으키기 쉽습니다.
패치 기반 추론 (Patch-based Reasoning): 이미지를 고정된 크기의 패치로 나누어 직접 추론합니다.
- 고정된 해상도 한계: 비전 백본 (Vision Backbone) 의 고정된 패치 분할 크기에 의해 제한받아 정밀한 영역 선택이 어렵습니다.
- 아키텍처 변경 필요: 패치 생성 또는 인덱싱을 위해 모델 구조에 상당한 변경이 필요하여 모듈성이 떨어집니다.

2. 방법론 (Methodology)

NV-CoT 는 MLLM 의 행동 공간 (Action Space) 을 이산적인 어휘 토큰에서 **연속적인 유클리드 공간 (Continuous Euclidean Space)**으로 확장합니다.

연속 행동 공간 확장:
- 표준 LLM 헤드를 확장하여 4 개의 좌표 헤드를 추가하고, 직접적인 수치 박스 좌표 [x1, y1, x2, y2]를 예측합니다.
- 가우시안 정책 (Gaussian Policy): RL(강화학습) 단계에서 확률적 탐색을 위해, 좌표를 결정론적으로 예측하는 대신 평균 ( $\mu$ ) 과 표준 편차 ( $\sigma$ ) 를 예측하는 가우시안 분포를 사용합니다. 재파라미터화 (Reparameterization) 기법을 통해 샘플링을 수행합니다.
- 라플라스 정책 (Laplace Policy): 아웃라이어에 강건하고 $\ell_1$ 손실이 위치 추정 (Localization) 에 유리하다는 점을 반영하여, 가우시안 대신 라플라스 분포를 사용하는 변형도 제안합니다.
학습 단계:
- 지도 미세 조정 (SFT): 정답 박스가 있는 경우, 토큰 교차 엔트로피 대신 **회귀 손실 (Regression Loss, $\ell_2^2$ 또는 $\ell_1$ )**을 사용하여 연속 좌표를 학습합니다.
- 강화학습 (RL, GRPO): 정답 박스 없이 최종 답변 정확도만으로 학습할 수 있도록 GRPO (Group Relative Policy Optimization) 와 호환되도록 설계되었습니다.
  - 중요도 비율 (Importance Ratio): 연속 공간에서의 가우시안/라플라스 확률 밀도 함수를 사용하여 중요도 비율을 계산합니다.
  - KL 페널티: 분산 관련 항은 제외하고 평균 ( $\mu$ ) 에 대한 제약만 두어 KL 발산을 계산합니다.

3. 주요 기여 (Key Contributions)

NV-CoT 프레임워크 제안: MLLM 의 행동 공간을 이산적 토큰에서 연속적 유클리드 공간으로 확장하여, 박스 좌표를 직접 수치로 생성하는 방식을 도입했습니다.
RL 호환성 확보: 재파라미터화 샘플링과 해석적 중요도 비율 (Analytic Importance Ratios) 을 도입하여, 가우시안/라플라스 정책을 기반으로 한 연속적 위치 추정이 GRPO 와 같은 주요 RL 알고리즘과 호환되도록 했습니다.
광범위한 실험 검증: 3 개의 벤치마크 (V*Bench, HR-Bench 4K/8K) 와 8 개의 기존 모델 (텍스트 기반, 패치 기반, SFT 기반, RL 기반) 에 대한 비교 실험을 통해 NV-CoT 의 우수성을 입증했습니다.

4. 실험 결과 (Results)

성능 향상: NV-CoT 는 SFT 및 RL 설정 모두에서 기존 모델 (Vis-CoT, DeepEyes, LVR 등) 보다 **로컬라이제이션 정밀도 (IoU)**와 최종 답변 정확도를 크게 향상시켰습니다.
- 예: V*Bench 에서 NV-CoT-7B 는 LVR-7B 보다 9.5%, DeepEyes-7B 보다 2.7% 높은 성능을 보였습니다.
- 7B 모델 기반의 NV-CoT 가 32B 모델 (Qwen2.5-VL-32B) 보다 더 높은 성능을 기록하기도 했습니다.
수렴 속도: 학습 중 로컬라이제이션 정확도와 최종 답변 정확도 모두 더 빠른 수렴 속도를 보였습니다.
손실 함수 및 정책 비교:
- $\ell_1$ Loss (Laplace) 의 우위: $\ell_2^2$ Loss (Gaussian) 보다 $\ell_1$ Loss 를 사용한 Laplace 정책이 모든 벤치마크에서 더 높은 성능을 보였습니다. 이는 위치 추정 작업에서 $\ell_1$ 손실이 더 강건함을 시사합니다.
- 공유 vs 독립 파라미터: 좌표별 독립적인 표준 편차 ( $\sigma$ ) 를 예측하는 것보다 단일 공유 파라미터를 사용하는 것이 성능 차이는 미미하면서 계산 효율성이 더 높았습니다.

5. 의의 및 결론 (Significance)

모달리티 불일치 해결: 텍스트로 좌표를 표현함으로써 발생하는 의미 분열과 기하학적 정보 손실을 해결하여, 모델이 시각적 공간 구조를 더 자연스럽게 이해하고 추론할 수 있게 합니다.
유연성과 효율성: 패치 기반 방법의 고정된 해상도 한계를 피하면서도, 아키텍처 변경을 최소화 (단순히 헤드 추가) 하여 다양한 MLLM 에 적용 가능합니다.
미래 전망: 이 연구는 시각적 질문 응답 (VQA), 광학 문자 인식 (OCR) 등 정밀한 영역 기반 추론이 필요한 다양한 다운스트림 작업의 성능을 향상시키는 기반을 마련했습니다.

요약하자면, NV-CoT 는 MLLM 이 이미지를 "생각"할 때 텍스트 토큰이 아닌 연속적인 수치로 직접 영역을 지정함으로써, 더 정밀하고 효율적인 시각적 추론을 가능하게 하는 혁신적인 접근법입니다.

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

🎨 쉬운 비유로 설명하는 NV-CoT

1. 기존 방식: "글자로 된 지도" (Text-based CoT)

2. 새로운 방식: "직관적인 손가락" (NV-CoT)

3. 왜 더 좋은가요? (학습과 훈련)

🚀 핵심 성과: 무엇이 달라졌나요?

💡 결론

논문 요약: Thinking with Images as Continuous Actions (NV-CoT)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis