Locating and Editing Figure-Ground Organization in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

1. 실험: "뾰족한 화살 vs 둥근 삼각형"의 싸움

연구자들은 인공지능 (비전 트랜스포머, BEiT) 에게 아주 기묘한 그림을 보여줬습니다.

상황: 화살촉 모양 (뾰족한 끝이 안으로 들어간 모양) 이 있습니다.
문제: 화살촉의 뾰족한 부분 (오목한 부분) 을 가렸습니다.
질문: "가려진 부분을 어떻게 채워야 할까?"

여기서 두 가지 선택지가 생깁니다.

오목한 채우기: 원래 화살촉 모양을 그대로 복원하는 것 (국소적인 증거).
볼록한 채우기: 가려진 부분을 삼각형으로 막아서 둥글게 만드는 것 (전체적인 규칙).

인간은 보통 '볼록한 것 (삼각형)'을 앞쪽의 사물 (Figure) 로 보고, '오목한 것'을 뒤쪽 배경 (Ground) 으로 봅니다. 이를 '볼록성 편향'이라고 합니다. 연구자들은 인공지능도 이렇게 "삼각형으로 채우는 쪽"을 선호한다는 것을 확인했습니다.

비유: 마치 구멍 난 옷을 고를 때, 구멍을 그대로 둬서 옷의 원래 모양을 살리는지, 아니면 구멍을 꿰매서 옷을 둥글게 만드는지 고민하는 상황과 같습니다. 인공지능은 대부분 "꿰매서 둥글게 만드는 것"을 선택했습니다.

2. 탐정 작업: "누가 결정을 내렸을까?"

그렇다면, 인공지능 내부의 어떤 부품이 "삼각형으로 만들어야지!"라고 결정했을까요? 연구자들은 인공지능의 뇌 (내부 레이어) 를 해부했습니다.

초반 레이어 (입구): 인공지능이 그림을 처음 보는 순간에는, "삼각형일까? 화살촉일까?"라고 아직 결정하지 못하고 고민 중이었습니다.
후반 레이어 (출구): 마지막 단계에 와서야 "아, 삼각형이야!"라고 확실히 결정했습니다.

핵심 발견:
그런데 흥미로운 점은, 결정을 내리기 훨씬 전인 아주 초반에 특정 부품 하나가 아주 작은 신호를 보냈다는 것입니다.

L0H9 라는 부품: 이 부품은 그림을 처음 보는 순간, 아주 미세하게 "삼각형 쪽으로 기울어라"라는 신호를 보냈습니다.
비유: 마치 회의실 문이 열리기 전에, 한 사람이 "아마도 A 안이 좋을 거야"라고 아주 작게 속삭인 것과 같습니다. 그 말은 처음엔 작지만, 시간이 지나며 다른 사람들이 그 말을 듣고 "맞아, A 가 좋겠네"라고 따라 말하며 점점 커져 결국 A 를 선택하게 만드는 시작점 (Seed) 역할을 했습니다.

3. 조작 실험: "부품의 볼륨을 조절하다"

연구자들은 이 '시작점'이 진짜로 중요한지 확인하기 위해 실험을 했습니다.

조작: L0H9 라는 부품의 신호를 약하게 줄였습니다 (볼륨을 낮췄습니다).
결과: 놀랍게도 인공지능의 생각이 180 도 바뀌었습니다!
- 원래는 "삼각형으로 채워야지"라고 했던 인공지능이, 이 부품을 약하게 만들자 **"아니야, 원래 화살촉 모양으로 채워야 해"**라고 결론 내렸습니다.

비유: 회의에서 "A 안이 좋겠다"라고 속삭이던 핵심 인물의 입을 막거나 목소리를 작게 만들자, 회의 전체가 "그럼 B 안 (화살촉) 으로 가자"라고 결론을 내린 것과 같습니다.

📝 요약 및 결론

이 논문은 다음과 같은 중요한 사실을 밝혀냈습니다.

인공지능도 인간의 시각 원리를 배웠다: 인공지능도 그림을 볼 때 "볼록한 것이 앞쪽"이라는 인간의 규칙 (게슈탈트 법칙) 을 스스로 터득하고 있습니다.
결정은 '누군가'가 내리는 게 아니라 '싸움'의 결과다: 처음엔 고민하다가, 아주 초반의 작은 신호가 쌓여서 마지막에 결정이 났습니다.
인공지능의 눈을 조작할 수 있다: 특정 부품 (L0H9) 하나만 조절하면, 인공지능이 보는 세계를 바꿀 수 있습니다. 이는 인공지능이 단순히 패턴을 외운 것이 아니라, 의사결정 과정이 구체적으로 존재한다는 증거입니다.

왜 중요할까요?
이 기술은 인공지능이 잘못된 판단을 할 때 (예: 의료 영상에서 중요한 병변을 '배경'으로 무시해버리는 경우), 그 원인을 찾아내고 수정할 수 있게 해줍니다. 즉, 인공지능의 시각적 판단을 우리가 더 정밀하게 제어할 수 있는 방법을 찾은 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 비전 트랜스포머 (ViT) 는 국소적인 수용 영역 (receptive field) 을 가진 합성곱 신경망 (CNN) 과 달리, 전역적인 수용 영역을 통해 이미지 패치 간의 상호작용을 모델링합니다. 이로 인해 ViT 는 질감 (texture) 보다 형태 (shape) 정보에 더 의존하는 경향을 보입니다.
문제: 인간의 시각 체계는 '게슈탈트 (Gestalt)' 원리를 통해 시각적 요소를 통합하며, 특히 피구 - 배경 조직 (Figure-Ground Organization) 에서 볼록성 (Convexity) 을 강력한 선입관 (prior) 으로 사용합니다. 즉, 인간은 볼록한 영역을 '대상 (Figure)' 으로, 오목한 경계를 '배경 (Ground)' 으로 인식하는 경향이 있습니다.
연구 질문: ViT 가 이러한 게슈탈트 원리 (특히 볼록성 선호) 를 내부적으로 학습하고 있는가? 만약 그렇다면, 모델의 어떤 내부 구성 요소 (attention heads, layers) 가 이 결정을 내리며, 이를 조작하여 모델의 지각을 변경할 수 있는가?

2. 방법론 (Methodology)

연구자들은 BEiT 모델을 대상으로 다음과 같은 실험 설계와 분석 기법을 사용했습니다.

가. 지각적 갈등 자극 (Perceptual Conflict Stimulus)

디자인: '다트 (dart)' 형태의 비볼록 사각형을 기반으로 한 합성 이미지를 생성했습니다.
갈등 영역: 다트 모양 (오목한 형태) 과 그 볼록 껍질 (Convex Hull) 사이의 차이를 계산하여 '갈등 영역 (Conflict Region)'을 정의했습니다.
마스크 및 예측: 이 갈등 영역을 마스킹하고 모델이 이를 채우게 했습니다.
- 볼록 해석: 마스킹된 부분을 채워 삼각형 (볼록 껍질) 을 완성하면 볼록성 선호.
- 오목 해석: 다트 모양을 유지하며 오목한 부분을 채우면 오목성 선호.
모델: BEiT (Discrete VAE 기반) 를 사용하여 마스킹된 패치를 이산적인 (discrete) 토큰 코드로 예측하도록 했습니다. 이는 픽셀 회귀가 아닌 분류 문제로 접근하여 지각적 결정의 명확성을 확보했습니다.

나. 로짓 귀속 (Logit Attribution) 을 통한 모델 분해

기법: 자연어 처리 모델에서 유래한 Logit Attribution 기법을 적용하여, 트랜스포머의 잔류 스트림 (residual stream) 이 각 구성 요소 (레이어, 헤드) 의 기여도 합으로 분해될 수 있다는 가정을 활용했습니다.
구현:
- 볼록 완성 (Figure) 과 오목 배경 (Ground) 에 해당하는 시각 토큰 집합을 정의.
- 각 구성 요소의 출력을 코드북 (codebook) 공간으로 투영하여, 볼록성 선호도 (양수) 와 오목성 선호도 (음수) 를 나타내는 스칼라 점수를 계산.
- 이를 통해 모델의 내부 상태가 언제, 어디서 볼록성 편향을 수용하는지 추적.

다. 활성화 스케일링 (Activation Scaling) 을 통한 개입

기법: 특정 어텐션 헤드의 활성화 값을 스칼라 $\alpha$ 로 곱하여 증폭하거나 감쇠시키는 Activation Scaling 기법을 사용.
목표: 볼록성 편향을 유발하는 핵심 헤드를 식별하고, 그 활성을 조절하여 모델의 최종 지각 결정 (볼록 vs 오목) 을 인위적으로 전환시키는지 확인.

3. 주요 기여 (Key Contributions)

지각적 조직의 메커니즘적 해석: BEiT 모델 내에서 피구 - 배경 조직이 단순한 출력 특성이 아니라, 식별 가능한 어텐션 헤드 (attention heads) 에 의해 구동되는 기능적 단위임을 규명했습니다.
지각 결정의 시공간적 매핑: 지각적 갈등이 초기 및 중간 레이어에서는 모호하게 유지되다가, 후기 레이어 (late layers) 에서 급격히 해결됨을 발견했습니다.
조작 가능한 편향 (Steerable Bias): 단일 어텐션 헤드의 활성을 조절함으로써 모델의 지각 편향을 연속적인 결정 경계 (decision boundary) 를 넘어 오목성에서 볼록성으로, 혹은 그 반대로 전환할 수 있음을 증명했습니다.

4. 주요 결과 (Results)

레이어별 편향 진화:
- 초기 및 중간 레이어에서는 잔류 스트림의 로짓 귀속이 0 에 가까워, 모델이 볼록성과 오목성 사이에서 경쟁 상태 (bistability) 를 유지합니다.
- 후기 레이어 (Terminal Layer) 에서만 볼록성 편향이 급격히 증가하며 결정이 내려집니다.
핵심 어텐션 헤드의 식별 (L0H9):
- L0H9 (Layer 0, Head 9): 입력 직후 약하지만 일관된 볼록성 편향 (convexity bias) 을 주입하는 '시드 (seed)' 역할을 합니다. 이 헤드는 강력한 결정자가 아니라, 초기 조건을 비대칭적으로 설정하여 후속 경쟁을 이끄는 역할을 합니다.
- L9H6: 후기 레이어에서 오목성 (geometric fidelity) 을 지지하는 반대의 목소리를 내지만, 전체적인 어텐션 헤드의 집합 효과는 볼록성을 지지합니다.
개입 실험 (Activation Scaling):
- L0H9 의 감쇠 ( $\alpha = 0.3$ ): L0H9 의 영향을 줄이면 모델의 확률 분포가 결정 경계를 넘어 오목성 선호 영역으로 이동합니다.
- 시각적 결과: 기본 BEiT 는 마스킹된 부분을 채워 삼각형 (볼록) 을 완성하지만, L0H9 를 감쇠시킨 모델은 오목한 다트 모양을 유지하며 채웁니다. 이는 볼록성 편향이 모델의 수동적 특성이 아니라, 조절 가능한 능동적 과정임을 보여줍니다.

5. 의의 및 결론 (Significance & Conclusion)

게슈탈트 원리의 메커니즘적 입증: 비전 트랜스포머가 인간과 유사한 지각적 조직 원리 (볼록성 선호) 를 학습하며, 이것이 모델 내부의 식별 가능한 계산 단위 (어텐션 헤드) 에 의해 구현됨을 증명했습니다.
모델 제어 및 안전성: 지각적 조직이 고정된 아키텍처 제약이 아니라, 특정 헤드를 조작하여 변경 가능한 것임을 보여줌. 이는 의료 영상이나 이상 감지 (anomaly detection) 와 같이 국소적인 오목한 특징이 중요한 영역에서, 전역적 편향이 국소적 증거를 무시하지 않도록 모델을 보정 (steer) 하는 데 활용될 수 있습니다.
향후 방향: 단일 아키텍처 (BEiT) 와 합성 데이터에 국한된 한계가 있으나, 다양한 모델과 생태학적 유효성 (ecological validity) 이 있는 데이터셋으로의 일반화를 제안합니다.

요약하자면, 이 논문은 ViT 가 볼록성을 선호하는 지각적 편향을 어떻게 학습하고 구현하는지 '어디서 (L0H9 등)' 그리고 '어떻게 (경쟁적 통합)' 작동하는지를 해부학적 수준에서 규명하고, 이를 통해 모델의 지각 결정을 의도적으로 조작할 수 있음을 보였습니다.

Locating and Editing Figure-Ground Organization in Vision Transformers

1. 실험: "뾰족한 화살 vs 둥근 삼각형"의 싸움

2. 탐정 작업: "누가 결정을 내렸을까?"

3. 조작 실험: "부품의 볼륨을 조절하다"

📝 요약 및 결론

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

가. 지각적 갈등 자극 (Perceptual Conflict Stimulus)

나. 로짓 귀속 (Logit Attribution) 을 통한 모델 분해

다. 활성화 스케일링 (Activation Scaling) 을 통한 개입

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics