Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 사람과 똑같이 생각하는지, 아니면 겉보기엔 비슷해 보이지만 속은 완전히 다른지"**를 확인한 흥미로운 실험 결과입니다.

주인공은 일본의 두 글자, **'ソ (소)'**와 **'ン (은)'**입니다. 이 두 글자는 모양이 너무 비슷해서 사람들도 헷갈리기 쉽습니다. 마치 왼쪽에서 오른쪽으로 살짝 기울어진 'ㄱ' 자와 거의 똑바로 서 있는 'ㄱ' 자를 구분하는 것과 비슷하죠.

저자 (하라구치 다이지 씨) 는 이 두 글자를 이용해 AI 와 사람의 뇌가 어떻게 다른지, 그리고 **문맥 (주변 상황)**이 그 차이를 어떻게 바꾸는지 실험했습니다.

이 실험을 이해하기 쉽게 세 가지 단계로 나누어 설명해 드릴게요.

1. 실험의 설정: "모양만 보는 시험" vs "문맥을 보는 시험"

연구진은 두 가지 상황을 만들었습니다.

상황 A (모양만 보기): 글자 하나만 뚝 떼어놓고 "이게 '소'냐 '은'이냐?"라고 물었습니다. (문맥 없음)
상황 B (문맥 보기): 그 모호한 글자를 다른 글자들과 함께 단어로 만들어 "이 단어가 뭘까?"라고 물었습니다. (예: '댄스'라는 단어에서 모호한 글자가 들어갔을 때)

그리고 사람 300 명과 **최신 AI (GPT, Gemini)**에게 같은 문제를 풀게 했습니다.

2. 실험 결과: AI 와 사람은 어떻게 달랐을까?

🧐 상황 A: 모양만 봤을 때 (혼자 있을 때)

사람들은 글자의 모양이 조금씩 변할 때, **"아, 이건 확실히 '은'이네"**라고 딱 잘라 판단했습니다. 하지만 AI 는 달랐습니다.

사람: "이건 100% '은'이야!"라고 확신하는 경향이 강했습니다.
AI: "음... 모양은 '은'인데, 어딘가 '소' 같은 느낌도 드네?"라고 주저하거나 헷갈리는 경향이 있었습니다.
- 비유: 사람이 "저건 사과야!"라고 확신할 때, AI 는 "저건 사과 같기도 하고 배 같기도 한데..."라고 중간 단계에서 멈추는 것처럼 보였습니다. AI 는 사람보다 훨씬 더 "중립적인" 혹은 "혼란스러운" 판단을 내렸습니다.

🧩 상황 B: 문맥을 봤을 때 (단어 속에 있을 때)

이제 모호한 글자를 '댄스 (Dance)'나 '와인 (Wine)' 같은 단어 속에 넣었습니다.

사람: 주변 글자를 보고 "아, '댄스'니까 여기는 '은'이겠지!"라고 문맥을 이용해 쉽게 해결했습니다.
AI: 문맥을 보긴 했지만, 사람과 완전히 똑같이 반응하지는 않았습니다.
- 어떤 AI 는 문맥을 잘 따라가서 사람과 비슷해졌지만, 어떤 AI 는 여전히 "아직도 '소' 같아"라고 고집을 부리기도 했습니다.
- 비유: 사람이 "친구가 '사과'를 사러 갔다"라고 하면 "아, 과일 가게로 간구나"라고 바로 알지만, AI 는 "사과? 과일인가? 아니면 '사과'라는 이름의 가게인가? 아니면 사과색 옷인가?"라고 여러 가능성을 동시에 고려하다가 사람보다 느리게, 혹은 다르게 결론을 내리는 경우가 있었습니다.

3. 핵심 교훈: "정답률"만 보면 안 되는 이유

이 연구의 가장 중요한 메시지는 **"AI 가 글자를 맞히는 비율 (정확도) 이 높다고 해서, 사람과 똑같은 방식으로 생각하는 건 아니다"**라는 점입니다.

기존의 생각: "AI 가 글자를 99% 맞췄으니, 사람과 똑같겠지?"
이 연구의 발견: "아니야. AI 는 사람과 **결정하는 기준 (마음의 문턱)**이 달라. 특히 애매모호할 때 AI 는 사람이 쉽게 넘어가는 부분을 더 깊게, 혹은 다르게 고민해."

4. 결론: 왜 이 실험이 중요할까?

이 실험은 AI 를 평가할 때 **"문맥이 없는 단순한 문제"**와 **"문맥이 있는 복잡한 문제"**를 모두 봐야 한다고 말합니다.

비유: 만약 AI 를 운전면허 시험에 붙인다면, **빈 도로에서 차만 운전하는 것 (모양만 보기)**과 **혼잡한 시내에서 사람들과 차를 피하며 운전하는 것 (문맥 보기)**을 모두 테스트해야 합니다.
- 빈 도로에서는 AI 가 사람보다 더 잘할 수도 있지만,
- 복잡한 시내에서는 AI 가 사람과 다른 "이상한 판단"을 할 수 있다는 것을 이 실험은 보여줍니다.

한 줄 요약:

"AI 가 글자를 잘 읽는다고 해서 사람과 똑같은 '눈'을 가진 건 아닙니다. 특히 애매할 때 AI 는 사람과 다른 방식으로 고민하며, 문맥을 줘도 사람과 완전히 같아지지는 않습니다. 그러니 AI 를 평가할 때는 단순히 점수만 보지 말고, 어떻게 판단하는지 그 과정을 살펴봐야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 대규모 비전 - 언어 모델 (VLM, Vision-Language Models) 은 이미지 내 텍스트 인식에서 높은 정확도를 보이지만, 높은 정확도가 인간과 유사한 의사결정 패턴을 의미하지는 않습니다.
핵심 문제: 시각적 증거가 불확실한 (모호한) 상황에서 인간은 문맥 (Context) 을 유연하게 활용하여 입력을 해석하지만, VLM 이도 동일한 유연성을 보이는지, 아니면 편향된 다른 의사결정 패턴을 따르는지는 불분명합니다.
연구 목표: 단순한 정확도 벤치마크를 넘어, 인간과 VLM 의 의사결정 경계 (Decision Boundary) 와 모호성 해결 방식의 질적 차이를 규명하는 것입니다.

2. 방법론 (Methodology)

2.1 자극 생성 (Stimuli Generation)

대상 문자: 일본어 가나 문자 중 형태가 매우 유사한 'ソ' (so) 와 'ン' (n) 쌍을 선정했습니다. 두 문자는 획의 각도라는 단일 기하학적 차이를 제외하고는 거의 동일합니다.
β-VAE 활용: 고정된 데이터셋을 넘어선 연속적인 모호성을 구현하기 위해 β-VAE를 사용했습니다.
- 364 개의 폰트 (Google Fonts 기반) 로 학습된 β-VAE 의 잠재 공간 (Latent Space) 에서 'so'와 'n'의 잠재 벡터를 추출했습니다.
- 두 벡터 간 선형 보간 (Linear Interpolation) 을 통해 15 단계의 연속적인 문자 이미지를 생성했습니다 ( $\alpha=0.0$ 은 'so', $\alpha=1.0$ 은 'n').

2.2 실험 설계 (Experimental Design)

연구는 두 가지 주요 질문 (RQ) 을 중심으로 진행되었습니다.

RQ1: 형태만 있는 작업 (Shape-only Task)
- 과제: 보간된 단일 문자 이미지를 제시하고 'so' 또는 'n' 중 무엇인지 선택하게 함.
- 참가자: 인간 30 명, VLM (GPT-5.1, Gemini-2.5-Flash).
- 목적: 인간과 VLM 의 순수한 형태 인식 의사결정 경계 비교.
RQ2: 문맥 내 형태 작업 (Shape-in-Context Task)
- 과제: 모호한 글자 (X) 가 포함된 단어를 제시하고, 전체 단어의 읽기를 선택하게 함.
- 조건:
  1. 단일 발생 (Sole-Occurrence): 단어 내 다른 곳에 명확한 'so'나 'n'이 없음 (어휘적 제약만 존재).
  2. 공발생 (Co-Occurrence): 단어 내 다른 위치에 명확한 'so'나 'n'이 추가로 존재 (문자 단서 강화).
- 목적: 문맥이 인간과 VLM 의 판단에 미치는 영향 및 정렬 (Alignment) 여부 평가.

2.3 데이터 수집 및 분석

인간: 크라우드소싱 플랫폼을 통해 약 390 명의 참가자를 모집, 강제 선택형 설문을 수행.
VLM: 동일한 이미지와 답변 옵션으로 10 회 독립적인 쿼리를 수행하여 응답을 집계.
통계 분석: 로지스틱 혼합 효과 모델 (Logistic Mixed-effects Models), 피셔의 정확한 검정 (Fisher's exact test) 등을 사용하여 인간과 VLM 의 응답 분포 차이를 검증.

3. 주요 결과 (Key Results)

3.1 RQ1: 형태만 있는 작업 결과

의사결정 경계의 차이:
- 인간: $\alpha$ 가 증가함에 따라 'n' 투표율이 부드럽고 단조롭게 증가하여 $\alpha=1.0$ 에서 천장 효과 (Ceiling) 에 도달했습니다.
- Gemini: 전체적인 추세는 인간과 유사하지만, 인간보다 낮은 수준에서 포화되었습니다.
- GPT: 비단조적인 패턴을 보였으며, $\alpha=1.0$ (완전한 'n') 에서도 다시 'so'로 회귀하는 경향을 보였습니다.
결론: 시각적으로 모호하지 않은 끝점에서도 VLM 은 인간과 달리 'so'에 대한 잔류 편향 (Residual Bias) 을 보이며, 의사결정 곡선이 인간보다 완만하게 전환됩니다.

3.2 RQ2: 문맥 내 작업 결과

단일 발생 조건 (Sole-Occurrence):
- 'so' 편향 문맥에서는 인간과 Gemini 가 일치했으나, GPT 는 'n' 쪽으로 치우쳐 인간과 차이가 있었습니다.
- 'n' 편향 문맥에서는 인간과 GPT 가 일치했으나, Gemini 는 거의 독점적으로 'n'을 선택하여 인간과 차이가 있었습니다.
- 의미: VLM 들은 모양만 있는 조건 (RQ1) 에서 서로 다른 편향을 보였으나, 단어 문맥이 주어지면 모두 'n' 쪽으로 크게 이동하는 등 문맥의 영향력을 받았습니다.
공발생 조건 (Co-Occurrence):
- 단어 내 다른 위치에 명확한 글자가 있는 경우, VLM 의 행동이 인간에 더 가까워졌습니다.
- 특히 GPT 는 단일 발생 조건보다 인간과 더 잘 정렬되었으나, 모델 고유의 경향성은 완전히 사라지지 않았습니다.

4. 주요 기여 (Key Contributions)

정량적 의사결정 경계 매핑: 단순 정확도 측정을 넘어, β-VAE 를 활용한 연속적 보간 이미지를 통해 인간과 VLM 의 의사결정 경계 (Decision Boundaries) 를 정량적으로 비교하고 시각화했습니다.
문맥의 역할 규명: 모호한 입력에 대해 VLM 이 인간처럼 문맥을 활용하는지, 아니면 다른 메커니즘으로 작동하는지를 '형태만 있는 조건'과 '문맥 조건'을 대비하여 입증했습니다.
새로운 벤치마크 제안: 인간 - AI 정렬 (Alignment) 을 평가할 때, 의도적으로 문맥이 최소화된 조건 (Minimal-context) 과 문맥이 풍부한 조건을 모두 고려해야 함을 강조했습니다.

5. 의의 및 결론 (Significance & Conclusion)

정확도의 한계: VLM 이 높은 인식 정확도를 보일지라도, 모호성을 해결하는 질적 행동 (Qualitative Behavioral) 이 인간과 다를 수 있음을 증명했습니다.
문맥의 양면성: 문맥은 VLM 의 행동을 인간에 가깝게 변화시킬 수 있지만, 모델마다 고유한 편향이 남아있어 문맥이 항상 완벽한 정렬을 보장하지는 않습니다.
향후 방향: 향후 연구에서는 단어 의미 (Word Meaning) 와 단순 공발생 단서 (Co-occurrence cues) 를 분리하여, VLM 이 어떤 수준의 문맥 정보에 반응하는지 규명해야 합니다.
종합적 평가의 필요성: 인간 - AI 정렬을 평가할 때는 풍부한 문맥이 있는 전문가 수준의 테스트뿐만 아니라, 의도적으로 문맥이 제한된 단순한 테스트를 병행하여 모델의 실제 인지적 편향을 파악해야 합니다.

이 연구는 AI 시스템이 불확실한 상황 (Ambiguity) 에서 어떻게 행동하는지 이해하는 데 중요한 기초를 제공하며, 보다 신뢰할 수 있는 인간 중심 AI 개발을 위한 벤치마킹 방향을 제시합니다.