Each language version is independently generated for its own context, not a direct translation.

🎨 "시각적 스케치패드 (VisualScratchpad)": AI 가 그림을 볼 때 머릿속에서 무슨 생각을 하는지 들여다보기

안녕하세요! 오늘 소개해 드릴 논문은 ICLR 2026 워크샵에 발표된 **'시각적 스케치패드 (VisualScratchpad)'**에 대한 이야기입니다.

이 논문은 아주 복잡한 인공지능 (AI) 이 그림을 보고 답변할 때, 왜 틀린 답을 내놓는지 그 '머릿속 과정'을 직접 들여다보고 고쳐주는 도구를 만들었습니다.

이걸 이해하기 쉽게 요리사와 레시피에 비유해서 설명해 드릴게요.

1. 문제: "요리사는 왜 재료를 잘못 썼을까?"

우리가 AI(비전 - 언어 모델) 에게 "이 컵은 손 위에 있나요, 테이블 위에 있나요?"라고 물으면, AI 는 그림을 보고 답을 합니다. 그런데 가끔 AI 는 틀린 답을 내놓습니다.

기존의 어려움: AI 가 틀린 답을 낼 때, 우리는 "아, AI 가 실수했네"라고만 알 뿐, 왜 실수했는지 알 수 없었습니다. 마치 요리사가 "소금 대신 설탕을 넣었어요"라고 말해주지 않고, 그냥 "맛이 이상해요"라고만 하는 것과 비슷합니다.
원인: AI 의 머릿속 (신경망) 은 너무 복잡해서, 어떤 개념이 어떻게 작동하는지 알기 어렵습니다.

2. 해결책: "시각적 스케치패드 (VisualScratchpad)"

연구진들은 AI 의 머릿속을 투명한 유리창으로 만들어주었습니다. 이 도구를 통해 AI 가 그림을 볼 때 머릿속에서 떠오르는 **'개념들 (Concepts)'**을 직접 보고, 조작할 수 있습니다.

🧩 핵심 기술 1: "마법의 렌즈 (희소 오토인코더)"

AI 가 그림을 볼 때, 수만 개의 작은 조각 (패치) 으로 나누어 봅니다. 연구진들은 **'희소 오토인코더 (SAE)'**라는 마법의 렌즈를 씌워서, AI 가 보는 그림 조각들을 의미 있는 단어로 바꿔줍니다.

예: "회색의 둥근 모양" → "고양이"
예: "빨간색 줄무늬" → "사과"

이렇게 하면 AI 가 그림에서 무엇을 보고 있는지 알 수 있게 됩니다.

🔗 핵심 기술 2: "손가락으로 가리키기 (어텐션 맵)"

AI 가 "손"이라는 단어를 말할 때, 그림의 어떤 부분을 보고 말했는지 확인합니다.

마치 AI 가 그림을 보며 **"여기를 봐! 여기가 중요해!"**라고 손가락으로 가리키는 것과 같습니다.
이 도구는 AI 가 어떤 개념을 보고, 어떤 단어를 연결했는지 정확히 보여줍니다.

🔥 핵심 기능: "머릿속 지우개 (인과 분석)"

이게 가장 신기한 부분입니다. 사용자가 AI 의 머릿속에서 특정 개념을 지우거나 (Ablation), 강조할 수 있습니다.

예시: AI 가 "의자에 앉은 노인"이라고 잘못 말했을 때, '의자'나 '앉다'라는 개념을 머릿속에서 지워버리면, AI 는 다시 생각해보고 **"일어서 있는 노인"**이라고 정답을 말합니다!
마치 요리사가 "설탕을 빼고 소금을 넣으니까 맛이 달라졌다"라고 확인하는 것과 같습니다.

3. AI 가 왜 틀렸을까? (3 가지 실수 패턴)

이 도구를 통해 연구진들은 AI 가 실수하는 세 가지 주요 원인을 찾아냈습니다.

① "눈은 보는데, 귀는 못 들은 경우" (Limited Cross-modal Alignment)

상황: AI 는 그림을 잘 보고 "장갑"을 인식했습니다. 하지만 질문이 "손 위에 있나요?"였을 때, AI 는 "장갑"과 "손"을 연결하지 못해 "테이블"이라고 답했습니다.
해결: 질문을 "장갑을 낀 손 위에 있나요?"라고 더 구체적으로 바꾸니, AI 가 바로 정답을 맞췄습니다.
비유: 요리사가 "소금"을 보았지만, 레시피에 "소금"이라는 단어가 없어서 "설탕"을 넣은 상황입니다.

② "속은 속임수에 넘어간 경우" (Misleading Visual Concepts)

상황: 그림에 휠체어가 있어서 AI 는 "앉아 있다"고 답했습니다. 하지만 사실 그 사람은 휠체어에서 일어나려는 중이었습니다. AI 는 '휠체어'라는 단어에 너무 매몰되어 실수했습니다.
해결: '휠체어'나 '앉다'라는 개념을 머릿속에서 지우니, AI 는 "일어서 있다"고 바르게 답했습니다.
비유: 요리사가 "냄비"를 보고 "국물"이 있을 거라 생각했지만, 사실은 "볶음밥"을 하고 있었습니다. 냄새 (시각적 단서) 에 속은 셈이죠.

③ "숨겨진 보물을 못 본 경우" (Unused Hidden Cues)

상황: 그림이 '오리'와 '토끼'가 모두 보이는 착시 그림일 때, AI 는 처음에 '오리'라고만 말했습니다. 하지만 머릿속에는 '토끼'에 대한 정보도 이미 저장되어 있었습니다.
해결: '오리' 개념을 지우고 '토끼' 개념을 강조하니, AI 는 "아! 토끼였구나!"라고 답을 바꿨습니다.
비유: 요리사 머릿속에 '고추'와 '마늘'이 다 준비되어 있었는데, '고추'만 먼저 꺼내서 썼습니다. '마늘'을 꺼내주니 요리가 완성된 것입니다.

4. 결론: AI 를 더 신뢰할 수 있게 만들기

이 **'시각적 스케치패드'**는 AI 가 실수할 때, 단순히 "틀렸다"고 말하는 게 아니라, **"왜 틀렸는지"**를 보여주고 "직접 고쳐볼 수 있게" 해줍니다.

일반인도 쉽게: 복잡한 코딩 없이, 그림과 개념을 시각적으로 보면서 AI 의 사고 과정을 이해할 수 있습니다.
신뢰성 향상: AI 가 왜 그런 답을 냈는지 알 수 있으니, 우리는 AI 를 더 믿고 사용할 수 있게 됩니다.

한 줄 요약:

"이 도구는 AI 의 머릿속을 투명하게 만들어, AI 가 그림을 볼 때 어떤 생각을 하고, 왜 실수하는지 직접 보고 고쳐주는 **'AI 의 두뇌 수술실'**입니다."

이제 AI 가 틀린 답을 낼 때, 우리는 "AI 가 바보야"라고 말하기보다, "아, AI 가 이 부분을 잘못 연결했구나, 고쳐보자!"라고 말할 수 있게 되었습니다! 🚀

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

🎨 "시각적 스케치패드 (VisualScratchpad)": AI 가 그림을 볼 때 머릿속에서 무슨 생각을 하는지 들여다보기

1. 문제: "요리사는 왜 재료를 잘못 썼을까?"

2. 해결책: "시각적 스케치패드 (VisualScratchpad)"

🧩 핵심 기술 1: "마법의 렌즈 (희소 오토인코더)"

🔗 핵심 기술 2: "손가락으로 가리키기 (어텐션 맵)"

🔥 핵심 기능: "머릿속 지우개 (인과 분석)"

3. AI 가 왜 틀렸을까? (3 가지 실수 패턴)

① "눈은 보는데, 귀는 못 들은 경우" (Limited Cross-modal Alignment)

② "속은 속임수에 넘어간 경우" (Misleading Visual Concepts)

③ "숨겨진 보물을 못 본 경우" (Unused Hidden Cues)

4. 결론: AI 를 더 신뢰할 수 있게 만들기

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 희소 오토인코더 (SAE) 적용

나. 텍스트 - 이미지 어텐션을 통한 개념 연결

다. 토큰 - 잠재 히트맵 (Token-Latent Heatmap) 및 클러스터링

라. 인과적 개입 (Causal Intervention)

3. 주요 기여 (Key Contributions)

4. 결과 및 발견 (Results & Findings)

5. 의의 및 의의 (Significance)

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

🎨 "시각적 스케치패드 (VisualScratchpad)": AI 가 그림을 볼 때 머릿속에서 무슨 생각을 하는지 들여다보기

1. 문제: "요리사는 왜 재료를 잘못 썼을까?"

2. 해결책: "시각적 스케치패드 (VisualScratchpad)"

🧩 핵심 기술 1: "마법의 렌즈 (희소 오토인코더)"

🔗 핵심 기술 2: "손가락으로 가리키기 (어텐션 맵)"

🔥 핵심 기능: "머릿속 지우개 (인과 분석)"

3. AI 가 왜 틀렸을까? (3 가지 실수 패턴)

① "눈은 보는데, 귀는 못 들은 경우" (Limited Cross-modal Alignment)

② "속은 속임수에 넘어간 경우" (Misleading Visual Concepts)

③ "숨겨진 보물을 못 본 경우" (Unused Hidden Cues)

4. 결론: AI 를 더 신뢰할 수 있게 만들기

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 희소 오토인코더 (SAE) 적용

나. 텍스트 - 이미지 어텐션을 통한 개념 연결

다. 토큰 - 잠재 히트맵 (Token-Latent Heatmap) 및 클러스터링

라. 인과적 개입 (Causal Intervention)

3. 주요 기여 (Key Contributions)

4. 결과 및 발견 (Results & Findings)

5. 의의 및 의의 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation