Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

이 논문은 β\beta-VAE 를 활용한 연속적인 일본어 문자 형태 변형을 통해 인간과 비전 - 언어 모델 (VLM) 의 모호한 문자 인식 결정 경계를 비교 분석하여, 형태만으로는 두 주체의 판단 패턴이 상이함을 확인하고 문맥 정보가 인간과의 정렬을 개선할 수 있음을 규명했습니다.

Daichi Haraguchi

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 사람과 똑같이 생각하는지, 아니면 겉보기엔 비슷해 보이지만 속은 완전히 다른지"**를 확인한 흥미로운 실험 결과입니다.

주인공은 일본의 두 글자, **'ソ (소)'**와 **'ン (은)'**입니다. 이 두 글자는 모양이 너무 비슷해서 사람들도 헷갈리기 쉽습니다. 마치 왼쪽에서 오른쪽으로 살짝 기울어진 'ㄱ' 자거의 똑바로 서 있는 'ㄱ' 자를 구분하는 것과 비슷하죠.

저자 (하라구치 다이지 씨) 는 이 두 글자를 이용해 AI 와 사람의 뇌가 어떻게 다른지, 그리고 **문맥 (주변 상황)**이 그 차이를 어떻게 바꾸는지 실험했습니다.

이 실험을 이해하기 쉽게 세 가지 단계로 나누어 설명해 드릴게요.


1. 실험의 설정: "모양만 보는 시험" vs "문맥을 보는 시험"

연구진은 두 가지 상황을 만들었습니다.

  • 상황 A (모양만 보기): 글자 하나만 뚝 떼어놓고 "이게 '소'냐 '은'이냐?"라고 물었습니다. (문맥 없음)
  • 상황 B (문맥 보기): 그 모호한 글자를 다른 글자들과 함께 단어로 만들어 "이 단어가 뭘까?"라고 물었습니다. (예: '댄스'라는 단어에서 모호한 글자가 들어갔을 때)

그리고 사람 300 명과 **최신 AI (GPT, Gemini)**에게 같은 문제를 풀게 했습니다.

2. 실험 결과: AI 와 사람은 어떻게 달랐을까?

🧐 상황 A: 모양만 봤을 때 (혼자 있을 때)

사람들은 글자의 모양이 조금씩 변할 때, **"아, 이건 확실히 '은'이네"**라고 딱 잘라 판단했습니다. 하지만 AI 는 달랐습니다.

  • 사람: "이건 100% '은'이야!"라고 확신하는 경향이 강했습니다.
  • AI: "음... 모양은 '은'인데, 어딘가 '소' 같은 느낌도 드네?"라고 주저하거나 헷갈리는 경향이 있었습니다.
    • 비유: 사람이 "저건 사과야!"라고 확신할 때, AI 는 "저건 사과 같기도 하고 배 같기도 한데..."라고 중간 단계에서 멈추는 것처럼 보였습니다. AI 는 사람보다 훨씬 더 "중립적인" 혹은 "혼란스러운" 판단을 내렸습니다.

🧩 상황 B: 문맥을 봤을 때 (단어 속에 있을 때)

이제 모호한 글자를 '댄스 (Dance)'나 '와인 (Wine)' 같은 단어 속에 넣었습니다.

  • 사람: 주변 글자를 보고 "아, '댄스'니까 여기는 '은'이겠지!"라고 문맥을 이용해 쉽게 해결했습니다.
  • AI: 문맥을 보긴 했지만, 사람과 완전히 똑같이 반응하지는 않았습니다.
    • 어떤 AI 는 문맥을 잘 따라가서 사람과 비슷해졌지만, 어떤 AI 는 여전히 "아직도 '소' 같아"라고 고집을 부리기도 했습니다.
    • 비유: 사람이 "친구가 '사과'를 사러 갔다"라고 하면 "아, 과일 가게로 간구나"라고 바로 알지만, AI 는 "사과? 과일인가? 아니면 '사과'라는 이름의 가게인가? 아니면 사과색 옷인가?"라고 여러 가능성을 동시에 고려하다가 사람보다 느리게, 혹은 다르게 결론을 내리는 경우가 있었습니다.

3. 핵심 교훈: "정답률"만 보면 안 되는 이유

이 연구의 가장 중요한 메시지는 **"AI 가 글자를 맞히는 비율 (정확도) 이 높다고 해서, 사람과 똑같은 방식으로 생각하는 건 아니다"**라는 점입니다.

  • 기존의 생각: "AI 가 글자를 99% 맞췄으니, 사람과 똑같겠지?"
  • 이 연구의 발견: "아니야. AI 는 사람과 **결정하는 기준 (마음의 문턱)**이 달라. 특히 애매모호할 때 AI 는 사람이 쉽게 넘어가는 부분을 더 깊게, 혹은 다르게 고민해."

4. 결론: 왜 이 실험이 중요할까?

이 실험은 AI 를 평가할 때 **"문맥이 없는 단순한 문제"**와 **"문맥이 있는 복잡한 문제"**를 모두 봐야 한다고 말합니다.

  • 비유: 만약 AI 를 운전면허 시험에 붙인다면, **빈 도로에서 차만 운전하는 것 (모양만 보기)**과 **혼잡한 시내에서 사람들과 차를 피하며 운전하는 것 (문맥 보기)**을 모두 테스트해야 합니다.
    • 빈 도로에서는 AI 가 사람보다 더 잘할 수도 있지만,
    • 복잡한 시내에서는 AI 가 사람과 다른 "이상한 판단"을 할 수 있다는 것을 이 실험은 보여줍니다.

한 줄 요약:

"AI 가 글자를 잘 읽는다고 해서 사람과 똑같은 '눈'을 가진 건 아닙니다. 특히 애매할 때 AI 는 사람과 다른 방식으로 고민하며, 문맥을 줘도 사람과 완전히 같아지지는 않습니다. 그러니 AI 를 평가할 때는 단순히 점수만 보지 말고, 어떻게 판단하는지 그 과정을 살펴봐야 합니다."