Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

이 논문은 시공간 색상 혼합 왜곡을 통해 비전 - 언어 모델 (VLM) 이 인간보다 훨씬 취약한 지각적 약점을 보임을 규명하고, 이를 해결하기 위해 인간 중심의 전처리 및 도구 활용 전략의 필요성을 강조합니다.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 실험의 핵심: "점묘화"로 속여보기

저자들은 인공지능에게 자연스러운 동물이나 사물의 사진을 보여주고 "이게 뭐야?"라고 물었습니다. 그런데 여기서 장난을 쳤습니다.

  • 방법: 사진 위에 아주 가늘고 규칙적인 색깔 줄무늬격자무늬를 겹쳐서 씌웠습니다.
  • 효과: 가까이서 보면 사진이 온통 줄무늬로 뒤덮여 있어 "이게 무슨 동물이지?"라고 헷갈리게 됩니다. 하지만 멀리서 보면 (또는 눈을 가늘게 뜨면) 줄무늬가 섞여 원래의 동물 모양이 또렷하게 보입니다.
    • 비유: 마치 **점묘화 **(Pointillism)를 그린 그림을 가까이서 보면 점 (색점) 들만 보이지만, 멀리서 보면 아름다운 얼굴이 보이는 것과 같습니다.

이 실험은 인공지능이 **가까이서 **(픽셀 단위)를 테스트하는 것입니다.

🤖 2. 인공지능의 반응: "나는 확신하지만 틀렸어!"

연구진은 최신 인공지능 모델 9 개를 이 테스트에 시켰습니다. 결과는 놀라웠습니다.

  • 인간: 멀리서 보면 줄무늬를 무시하고 "아, 이건 코끼리구나!"라고 금방 알아맞힙니다.
  • 인공지능: 줄무늬가 살짝만 섞여도 완전히 혼란에 빠집니다.
    • "이건 강아지야!"라고 확신 있게 말하지만, 실제로는 코끼리입니다.
    • 심한 경우, "이건 픽셀이 깨진 이미지야"라고 하거나, 전혀 관련 없는 "일본의 "이라고 대답하기도 합니다.
    • 비유: 인공지능은 눈이 매우 날카로운데 뇌가 약한 사람 같습니다. 아주 작은 점 하나하나 (픽셀) 는 잘 보지만, 점들이 모여 만든 전체 그림 (의미) 을 이해하지 못해 엉뚱한 결론을 내립니다.

📈 3. 중요한 발견: "똑똑해질수록 더 똑똑해지지 않는다"

많은 사람들은 "모델을 더 크게 만들고 데이터를 더 많이 주면 인공지능이 더 똑똑해지겠지?"라고 생각합니다. 하지만 이 실험은 그게 아니었다는 것을 증명했습니다.

  • 인공지능의 두뇌 (언어 모델) 를 4 배, 10 배로 키워도 줄무늬가 섞인 사진을 보면 여전히 똑같이 망했습니다.
  • 비유: 아무리 고급 카메라를 사도, 렌즈에 기름이 묻어 있으면 사진은 여전히 흐릿하게 나옵니다. 인공지능의 '두뇌'가 아무리 커도, '눈 (시각 인코더)'이 이 특수한 줄무늬에 속아 넘어가면 소용이 없습니다.

👓 4. 해결책: "인간처럼 눈을 가늘게 뜨기"

연구진은 "인간은 어떻게 이걸 해결할까?"를 고민했습니다. 인간은 멀리서 보거나, 눈을 가늘게 뜨면 (블러 처리) 줄무늬가 사라지고 본래 모습이 보입니다.

  • 시도: 인공지능에게 사진을 먼저 작게 줄였다가 다시 키우는 (Downscale-Upscale) 나 흐리게 만드는 (Blur) 작업을 시켰습니다.
  • 결과: 이 간단한 작업을 거치자 인공지능의 정답률이 뚝뚝 올라갔습니다!
    • 비유: 인공지능에게 안경을 끼워주거나, 초점을 흐리게 해주는 필터를 씌워주니 갑자기 "아! 이거 코끼리네!"라고 깨달은 것입니다.

🛠️ 5. 하지만... 인공지능은 스스로 안경을 못 찾는다

연구진은 "인공지능에게 '네가 이 사진이 흐리니까 안경을 써봐'라고 말해주지 않고, 스스로 판단하게 해보자"라고 했습니다. (도구를 스스로 사용하는지 테스트)

  • 결과: 실패했습니다. 인공지능은 "내가 지금 헷갈리고 있어"라는 사실을 스스로 깨닫지 못했습니다.
  • 비유: 인공지능은 안경이 필요하다는 걸 모르지만, 안경을 끼우면 잘 보는 사람 같습니다. 스스로 "내 시력이 나빠졌네"라고 생각하지 못하므로, 우리가 외부에서 도와줘야 합니다.

💡 결론: 무엇을 배웠나요?

  1. 인공지능은 아직 '보는 법'을 완전히 배운 게 아닙니다: 인간은 전체적인 맥락 (전체 모양) 을 보지만, 인공지능은 세부적인 픽셀에 너무 집착합니다.
  2. 단순한 기술이 해결책이 될 수 있습니다: 복잡한 인공지능을 새로 만드는 대신, 사진을 흐리게 만드는 같은 간단한 전처리 (Preprocessing) 만으로도 성능을 크게 높일 수 있습니다.
  3. 앞으로의 방향: 인공지능이 "내가 지금 착각하고 있구나"라고 스스로 알아차리게 하거나, 우리가 인공지능에게 **시각적 필터 **(도구)를 제공해 주는 것이 중요합니다.

한 줄 요약:

"인공지능은 줄무늬가 섞인 그림을 보면 완전히 망치지만, 우리가 인간처럼 눈을 가늘게 뜨는 것 (흐리게 하기) 처럼 간단히 사진을 처리해 주면 다시 똑똑해집니다. 하지만 인공지능 스스로 그 사실을 깨닫지는 못하니, 우리가 도와줘야 합니다."