Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"티크아트 (TikArt)"**라는 새로운 인공지능 시스템을 소개합니다. 이 시스템은 복잡한 그림이나 사진을 보고 정답을 찾아내는 데 특화된 '눈썰미'를 가진 AI 입니다.

기존의 AI 는 사진을 한 번만 쓱 보고 전체를 대충 파악하려다 보니, 아주 작은 디테일이나 복잡한 부분에서 실수를 많이 했습니다. 마치 거대한 도서관의 책 전체를 한 번에 훑어보려다 중요한 한 줄의 글자를 놓치는 것과 비슷합니다.

티크아트는 이 문제를 해결하기 위해 **"스마트한 돋보기"**를 사용하는 방식을 도입했습니다. 아래에 일상적인 비유로 설명해 드리겠습니다.

1. 핵심 아이디어: "한 번에 다 보지 말고, 필요한 곳만 확대해 보자!"

기존 AI 는 사진을 한 번에 전체적으로 분석합니다. 하지만 티크아트는 사람이 복잡한 그림을 볼 때처럼 행동합니다.

사람의 방식: "저기 뭔가 이상한 게 있는데... 어? 저게 뭐지? 좀 더 가까이서 봐야겠다." -> 돋보기로 확대해서 자세히 봄. -> "아! 저게 고양이네!" -> 그리고 나서 결론을 내림.
티크아트의 방식: 사진 전체를 한 번에 보지 않고, 중요한 부분 (RoI, 관심 영역) 을 찾아서 **단계별로 확대 (Zoom)**하거나 정확히 잘라내어 (Segment) 자세히 관찰합니다.

2. 티크아트의 두 가지 '눈' (도구)

티크아트는 상황에 따라 두 가지 다른 돋보기 도구를 사용합니다.

확대경 (Zoom):
- 용도: 차트, 표, 글자처럼 정사각형이나 직사각형 모양으로 깔끔하게 정리된 것을 볼 때 씁니다.
- 비유: 도서관에서 특정 페이지의 글자 부분을 확대해서 읽는 것과 같습니다.
가위 (Segment):
- 용도: 불규칙한 모양, 가려진 물체, 혹은 뒤죽박죽 섞인 복잡한 장면을 볼 때 씁니다.
- 비유: 사진 속의 특정 물체 (예: 개) 만 가위로 오려내어 배경을 지우고 그 물체만 깨끗하게 보는 것입니다. (이때 'SAM2'라는 강력한 가위 도구를 사용합니다.)

3. 가장 중요한 규칙: "본 것을 반드시 말로 설명해야 한다!" (관찰 계약)

이게 티크아트의 가장 혁신적인 부분입니다. AI 가 확대경이나 가위를 사용해서 무언가를 봤다면, 무조건 그 결과를 말로 적어내야 합니다.

기존 방식: AI 가 머릿속 (숨겨진 상태) 에서 "아, 저게 개네"라고 생각만 하고 넘어갔습니다. 나중에 실수해도 왜 실수했는지 알 수 없었습니다.
티크아트 방식: "확대경으로 봤더니, 저기 차 뒤쪽에 사자상이 있고, 그 왼쪽에 차가 보입니다"라고 텍스트로 기록합니다.
비유: 탐정이 사건을 해결할 때, 수첩에 모든 단서를 적어가는 것과 같습니다. "이곳을 봤다, 저것을 발견했다"고 기록해야 나중에 논리적으로 결론을 내릴 수 있습니다. 이를 **'Aperture Chain-of-Thought(확대경 사고의 사슬)'**라고 부릅니다.

4. 학습 방법: "시행착오를 보상하는 선생님" (강화 학습)

AI 가 처음에는 엉뚱한 곳을 확대하거나, 쓸데없이 가위를 휘두를 수 있습니다. 이때 **RUR(상대적 불확실성 감소)**라는 새로운 보상 시스템을 도입했습니다.

비유: AI 가 탐정처럼 단서를 수집할 때, **선생님 (평가자 AI)**이 옆에서 지켜봅니다.
- "오! 네가 저기 확대해서 중요한 단서를 찾았구나. 이제 답을 맞출 확률이 높아졌네!" -> 보상 점수 UP
- "아니, 그냥 아무 데나 확대해서 쓸데없는 정보만 적었네. 답을 맞출 확률은 그대로야." -> 보상 점수 DOWN
이 방식 덕분에 AI 는 단순히 답만 맞추는 게 아니라, '어떻게 단서를 찾아낼지'를 배우게 됩니다.

5. 요약: 왜 이 기술이 중요한가요?

정밀한 분석: 아주 작은 글자나 복잡한 그림 속의 미세한 차이도 놓치지 않습니다.
투명한 과정: AI 가 왜 그런 결론을 내렸는지, 어떤 단서를 보고 판단했는지 말씀 (텍스트) 으로 남기므로 우리가 그 과정을 쉽게 이해할 수 있습니다.
범용성: 단순히 "이게 뭐야?"라고 묻는 질문 (VQA) 뿐만 아니라, "이 사자의 왼쪽에 있는 차를 잘라내서 보여줘"라는 세그멘테이션 (이미지 자르기) 작업에서도 뛰어난 성능을 보입니다.

한 줄 요약:

티크아트는 "한 번에 다 보려 하지 말고, 중요한 부분을 확대해서 자세히 보고, 본 것을 꼭 적어두어라"는 원칙을 가진, 아주 꼼꼼하고 논리적인 AI 탐정입니다.

Each language version is independently generated for its own context, not a direct translation.

TikArt: 강화 학습을 통한 조리개 유도 미세-세분화 시각 추론 안정화

이 논문은 멀티모달 대형 언어 모델 (MLLM) 의 미세-세분화 시각 추론 (Fine-grained Visual Reasoning) 능력을 향상시키기 위해 제안된 **TikArt(Thinking Aperture)**라는 새로운 에이전트 아키텍처를 소개합니다. TikArt 는 단일 패시브 이미지 인코딩의 한계를 극복하고, 관심 영역 (RoI) 에 대한 순차적 증거 수집을 통해 복잡한 시각적 추론 과제를 해결합니다.

1. 문제 정의 (Problem)

기존의 MLLM 은 전체 이미지를 고정된 토큰 세트로 한 번만 인코딩한 후 텍스트 도메인에서 추론을 수행하는 경향이 있습니다. 이로 인해 다음과 같은 한계가 발생합니다:

세부 정보 누락: 미세한 객체, 미묘한 표시, 복잡한 차트, 혹은 혼잡한 영역에 있는 결정적 증거를 놓치기 쉽습니다.
재검토의 어려움: 중요한 세부 사항을 다시 확인하거나 국소적으로 탐색하는 능력이 부족합니다.
기존 '줌 (Zoom)' 방식의 한계: 직사각형 컷아웃 (Bounding Box) 만 사용하는 기존 방식은 불규칙한 모양, 얇은 객체, 가려진 대상, 혹은 혼잡한 배경이 있는 경우 핵심 증거를 효과적으로 분리해내지 못합니다.

2. 방법론 (Methodology)

TikArt 는 Think–Aperture–Observe (TAO) 루프를 따르는 에이전트로서, 언어 추론과 시각적 탐사를 교차하여 수행합니다.

2.1. 이중 조리개 행동 공간 (Dual-Aperture Action Space)

TikArt 는 두 가지 상호 보완적인 '조리개 (Aperture)' 행동을 통해 국소적 증거를 획득합니다.

Zoom (상자 중심): 차트, 패널, 테이블 셀 등 구조화된 영역을 위해 직사각형 컷아웃을 생성합니다.
Segment (마스크 중심): SAM2 와 같은 오프더셸 (off-the-shelf) 분할 모델을 활용하여 불규칙하거나 얇은 객체, 혼잡한 배경 속의 객체를 대상으로 객체 중심의 마스크 기반 뷰를 생성합니다. 이는 배경 노이즈를 제거하고 대상 객체만 명확하게 분리하여 추론의 정확도를 높입니다.

2.2. 의무적 관찰 계약 (Mandatory Observation Contract)

TikArt 의 가장 핵심적인 설계 원칙입니다. 모델이 조리개 행동 (Zoom 또는 Segment) 을 수행한 후, 다음 행동을 취하거나 최종 답변을 출력하기 전에 **반드시 관찰 텍스트 (Observation)**를 생성해야 합니다.

기능: 획득한 국소적 시각 증거를 명시적인 텍스트 메모리로 변환합니다.
효과: 이는 'Aperture Chain-of-Thought (A-CoT)'를 생성하여 추론 과정을 해석 가능하게 만들고, 시각적 행동과 추론 간의 연결을 강화합니다. 또한, 모델이 잠재 상태에 증거를 숨기는 것을 방지하고, 잘못된 행동에 대한 신용 할당 (Credit Assignment) 을 정교하게 합니다.

2.3. 강화 학습 및 RUR (Relative Uncertainty Reduction)

장기적인 도구 통합 학습을 안정화하기 위해 GRPO (Group Relative Policy Optimization) 기반의 강화 학습을 적용했습니다.

문제: 희소한 최종 보상 (Sparse Reward) 만으로는 초기 학습 단계에서 정책 업데이트가 불안정해지거나, 모든 시도가 틀려 보상이 동일해지는 문제가 발생합니다.
해결 (RUR): 고정된 평가자 (Frozen Evaluator, Qwen3-VL-8B-Instruct) 를 사용하여 상대적 불확실성 감소 (RUR) 보상을 계산합니다. 이는 현재까지의 궤적 (Trajectory) 이 작업 목표에 대한 평가자의 확신을 얼마나 높였는지를 측정하는 밀집 보상 (Dense Reward) 입니다.
효과: RUR 은 증거를 구축하는 궤적을 장려하고, 도구 사용의 퇴화 (Degenerate tool use) 를 방지하여 학습을 안정화합니다.

2.4. 보상 설계

최종 보상 ( $R_{final}$ ) 은 다음과 같이 구성됩니다:
$R_{final} = \beta_1 R_{task} + \beta_2 R_{action} + \beta_3 RUR$

$R_{task}$ : 작업 정확도 (VQA 정답 여부 또는 분할 IoU).
$R_{action}$ : 목적 있는 조리개 사용 여부 (성공적인 증거 수집 시 추가 보상).
$RUR$ : 궤적 유효성 및 불확실성 감소 정도.

3. 주요 기여 (Key Contributions)

이중 조리개 행동 공간: 구조화된 지역을 위한 'Zoom'과 불규칙/혼잡한 대상의 마스크 기반 증거 수집을 위한 'Segment'를 결합하여 미세-세분화 추론을 지원합니다.
의무적 관찰 계약 및 A-CoT: 국소적 시각 증거를 명시적이고 감사 가능한 텍스트 메모리로 변환하여 장기 추론에서의 신용 할당을 강화합니다.
TikArt 에이전트 및 RUR: GRPO 기반 학습을 통해 체인 오브 씽킹 (CoT) 지도 없이도 학습 가능하며, RUR 을 도입하여 추론과 분할 작업 모두에서 도구 통합 학습을 안정화합니다.
범용성 입증: 고해상도 추론, 일반 멀티모달 이해, 그리고 픽셀 단위 분할 (Grounding) 작업까지 성능이 전이됨을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

TikArt 는 Qwen3-VL-8B 를 기반으로 훈련되었으며, 다양한 벤치마크에서 기존 모델 및 상용 모델 대비 우수한 성능을 보였습니다.

고해상도 추론 벤치마크 (V, HR-Bench):*
- V* 벤치마크에서 Qwen3-VL-8B-Instruct 대비 전체 점수 +15.7 향상 (속성 추론 +18.3, 공간 추론 +13.2).
- HR-Bench 4K/8K 에서 미세 구성적 지각 (FCP) 분야에서 큰 개선을 보이며, 단일 글로벌 인코딩으로 놓치기 쉬운 세부 정보를 효과적으로 포착함을 입증했습니다.
실제 세계 멀티모달 이해 (MME-RealWorld-Lite):
- 추론 (Reasoning) 분야에서 +19.2의 큰 향상을 기록하여, 학습된 RoI 중심 정책이 실제 시나리오에서도 효과적임을 보여줍니다.
분할 벤치마크 (RefCOCO, ReasonSeg):
- ReasonSeg 에서 73.8 gIoU를 기록하여 SegR1, SAM-R1 등 기존 RL 기반 분할 베이스라인을 크게 능가했습니다.
- RefCOCO 에서도 경쟁력 있는 정확도를 유지하며, 질문 응답 (VQA) 을 위해 학습된 조리개 정책이 픽셀 단위 분할 작업으로 자연스럽게 전이됨을 확인했습니다.
Ablation Study:
- Observation 제거: 정책 엔트로피가 증가하고 조리개 사용이 통제되지 않아 성능이 저하됨.
- RUR 제거: 학습 안정성이 떨어지고 성능이 감소하여 RUR 이 장기 학습에 필수적임을 확인.
- Zoom/Segment 제거: 각각 구조화된 데이터와 불규칙한 객체 처리에서 성능이 저하되어 두 행동의 상호 보완적 역할을 입증.

5. 의의 및 결론 (Significance)

TikArt 는 멀티모달 모델이 능동적으로 "어디를 봐야 하는지" 결정하고, 국소적 증거를 수집하며, 이를 텍스트로 명시화하여 추론을 이어가는 인간과 유사한 시각적 추론 과정을 구현했습니다.

기술적 혁신: 단순한 줌 (Zoom) 기능을 넘어, 불규칙한 객체를 위한 마스크 기반 분할 (Segment) 을 추론 도구로 통합하고, 이를 강화 학습으로 안정화한 점이 혁신적입니다.
실용성: 8B 규모의 모델로도 235B 규모의 모델이나 상용 모델 (GPT-4o, Gemini 등) 에 근접하거나 능가하는 성능을 보여주며, 고해상도 이미지 처리와 미세한 시각적 추론의 새로운 표준을 제시합니다.
해석 가능성: 'Aperture Chain-of-Thought'를 통해 모델이 어떤 시각적 증거를 바탕으로 결론을 내렸는지 추적 가능하게 만들어, 신뢰할 수 있는 AI 시스템 구축에 기여합니다.

결론적으로, TikArt 는 미세-세분화 시각 추론과 픽셀 단위 그라운딩 (Grounding) 을 위한 강력하고 해석 가능한 인터페이스를 제공하며, 멀티모달 에이전트의 발전 방향을 제시합니다.

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning