Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 실수할 때, 우리 인간처럼 실수하는 걸까?"**라는 아주 흥미로운 질문에서 시작합니다.

기존에는 AI 가 문제를 풀 때 정답률이 사람과 비슷하면 "AI 가 사람과 똑같이 생각한다"고 생각했습니다. 하지만 이 논문은 **"정답을 맞추는 것보다, 틀릴 때 어떻게 틀리는지가 더 중요하다"**고 주장합니다. 마치 두 사람이 시험을 봤을 때, 둘 다 100 점이라면 똑똑한 것이 맞지만, 둘 다 50 점인데 틀린 문제가 완전히 다르다면 공부한 방식이 다르다는 뜻이기 때문입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴겠습니다.

1. 문제: "어떤 기준으로 실수를 비교할까?" (나쁜 나침반)

지금까지 연구자들은 AI 와 사람의 실수를 비교할 때, **"이미지가 얼마나 흐릿해졌는지"**라는 기술적인 숫자 (예: 노이즈 강도 5, 10) 를 기준으로 삼았습니다.

비유: 두 사람이 눈이 안 보이는 상태에서 그림을 맞추는 게임을 한다고 칩시다.
- A 는 안경을 5 도 낀 상태, B 는 안경을 10 도 낀 상태라고 해서 "두 사람 모두 안경 도수가 높으니 똑같이 힘들겠지"라고 생각했습니다.
- 하지만! A 는 안경이 5 도만 높아도 안 보이지만, B 는 10 도가 되어도 잘 봅니다. 즉, 기술적인 숫자 (안경 도수) 가 같아도, 실제 사람에게는 느껴지는 '어려움'이 다릅니다.

이전 연구들은 이 '실제 느껴지는 어려움'을 무시하고 기술적인 숫자만으로 비교했기 때문에, AI 와 사람의 실수 패턴을 제대로 비교하지 못했습니다.

2. 해결책: "사람의 눈높이에 맞춘 난이도 지도" (새로운 나침반)

저자들은 새로운 방법을 제안합니다. "기술적인 숫자"가 아니라, "사람이 실제로 얼마나 헷갈려하는지"를 기준으로 난이도를 재정의하는 것입니다.

비유: 이제 우리는 안경 도수를 보지 않고, **"사람들이 이 그림을 맞추기 위해 얼마나 애를 썼는지"**를 측정합니다.
- 어떤 그림은 안경이 5 도만 높아도 사람들이 다 틀립니다. (이건 '매우 어려움')
- 어떤 그림은 안경이 10 도가 되어도 사람들이 대부분 맞춥니다. (이건 '그저 어려움')
- 이렇게 사람들의 실수 비율을 기준으로 난이도 지도를 다시 그렸습니다. 이를 **'OOD 스펙트럼 (Out-of-Distribution Spectrum)'**이라고 부릅니다.

이 지도는 난이도를 4 단계로 나눕니다:

정상 (Reference): 그림이 선명할 때.
약간 어려움 (Near-OOD): 그림이 조금 흐릿해져서 헷갈리기 시작할 때.
매우 어려움 (Far-OOD): 그림이 거의 알아볼 수 없을 정도로 망가졌을 때.
완전 불가 (Extreme-OOD): 그림이 너무 망가져서 아무것도 안 보일 때 (이건 비교 대상에서 제외).

3. 발견: AI 모델들의 '성격'이 다릅니다

이 새로운 지도를 이용해 다양한 AI 모델 (CNN, ViT, VLM 등) 을 테스트했더니 놀라운 결과가 나왔습니다.

① CNN (전통적인 AI): "초반에는 사람과 비슷하지만, 끝까지 버티지 못함"

비유: CNN 은 **세부적인 질감 (텍스처)**에 아주 민감한 화가입니다.
결과: 그림이 조금 흐릿할 때 (약간 어려움) 는 사람과 실수 패턴이 비슷했습니다. 하지만 그림이 너무 심하게 망가졌을 때 (매우 어려움) 는 완전히 무너져서, 사람과 전혀 다른 엉뚱한 실수를 했습니다.

② ViT (비전 트랜스포머): "초반에는 사람과 다르지만, 끝까지 버틴다"

비유: ViT 는 **전체적인 모양 (Shape)**을 보는 화가입니다.
결과: 그림이 조금 흐릿할 때는 CNN 보다 사람과 실수 패턴이 달랐습니다. 하지만 그림이 심하게 망가졌을 때는, CNN 이 무너진 것과 달리 사람처럼 전체적인 흐름을 파악하며 실수했습니다.

③ VLM (시각 - 언어 모델): "가장 인간적인 AI"

비유: VLM 은 그림을 보면서 '글'도 읽는 화가입니다. (예: "이건 개야"라고 텍스트로 학습함)
결과: 그림이 조금 흐릿할 때나 심하게 망가졌을 때나 일관되게 사람과 가장 비슷하게 실수했습니다. 언어 지식이 그림이 흐릿할 때도 "아마 개일 거야"라고 추측하게 만들어, 인간의 사고방식과 가장 잘 맞췄습니다.

4. 결론: "정답보다 '틀리는 방식'이 중요하다"

이 논문이 우리에게 주는 교훈은 다음과 같습니다.

난이도 기준을 바꿔야 한다: AI 를 평가할 때는 "얼마나 흐릿한가"가 아니라, "사람이 얼마나 헷갈리는가"를 기준으로 삼아야 진짜 실력을 알 수 있습니다.
모델마다 '성격'이 다르다: 어떤 AI 는 초반에 잘하지만, 어떤 AI 는 끝까지 버팁니다. 상황에 따라 어떤 AI 를 써야 할지 결정할 때 이 차이를 알아야 합니다.
신뢰할 수 있는 AI: 우리가 원하는 AI 는 단순히 정답을 많이 맞추는 게 아니라, 사람이 헷갈릴 때 같이 헷갈리고, 사람이 실수할 때 같이 실수하는 AI여야 합니다. 그래야 AI 가 왜 틀렸는지 우리가 이해할 수 있고, 더 신뢰할 수 있기 때문입니다.

한 줄 요약:

"AI 가 사람처럼 똑똑한지 보려면, 정답을 맞추는지보다 사람이 헷갈릴 때 AI 도 같이 헷갈리는지를, 사람이 느끼는 난이도에 맞춰서 봐야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

핵심 문제: 현대 AI 모델은 표준 작업에서 인간 수준의 정확도를 달성하지만, 이는 모델의 의사결정 전략이 인간의 정보 처리 방식과 정렬 (alignment) 되어 있음을 보장하지 않습니다. 특히, 모델과 인간이 어떻게 실패하는지 (error patterns) 를 비교하는 것이 중요합니다.
기존 방법론의 한계:
1. 인간 중심이 아닌 OOD 정의: 기존 OOD(Out-of-Distribution) 분석은 모델의 학습 데이터 분포에서의 편차로 정의되지만, 인간은 통제된 '학습 분포'가 없으므로 이 정의가 인간 지각에 적용하기 어렵습니다.
2. 비교 불가능한 왜곡 파라미터: 이미지 왜곡 (distortion) 의 강도를 이미지 처리 파이프라인의 임의의 파라미터 (예: 필터 값) 로 정의합니다. 서로 다른 왜곡 유형 (예: 저역 통과 vs 고역 통과) 간에 동일한 파라미터 값이 인간 지각의 난이도를 동일하게 반영하지 않아, 공정한 비교가 불가능합니다.
3. 난이도 불일치: 일부 왜곡 조건은 인간이 인식 불가능할 정도로 극단적일 수 있어, 모델 - 인간 정렬을 평가하는 데 적합하지 않습니다.
4. 기준선 (Baseline) 부재: 모델 - 인간 정렬 값을 절대적인 지표로만 해석하며, 인간 - 인간 간 정렬 (Human-Human Alignment) 을 기준선으로 삼지 않아 오해의 소지가 있습니다.

2. 방법론 (Methodology)

저자들은 위 문제들을 해결하기 위해 인간 중심의 행동 편차 프레임워크 (Human-Centred Behavioral Deviation Framework) 를 제안합니다.

인간 지각 난이도 기반 OOD 스펙트럼 구축:
- 왜곡 파라미터 대신 인간의 정확도 (Human Accuracy) 를 기준으로 OOD 정도를 정의합니다.
- OOD 점수 (OOD Score) 계산: 왜곡된 이미지에서의 인간 정확도 (로그이트 변환 후) 와 왜곡되지 않은 기준선 (Reference) 의 평균 차이와 기준선의 표준 편차를 사용하여 Glass's $\Delta$ 효과 크기를 계산합니다.
  - 수식: $\Delta = \frac{\bar{l}_d - \bar{l}_{ud}}{s_{ud}}$
- 이를 통해 모든 왜곡 유형과 강도를 인간 지각 난이도라는 공통 척도로 매핑합니다.
OOD 영역 (Regimes) 의 4 단계 분류:
- Gaussian Mixture Model (GMM) 을 사용하여 OOD 점수 분포를 분석하고, 인간 지각 난이도에 따라 4 가지 영역으로 구분합니다.
  1. Reference (기준): 왜곡되지 않거나 경미한 왜곡.
  2. Near-OOD: 정확도가 moderately 감소하는 영역.
  3. Far-OOD: 왜곡 유형에 따라 성능 저하율이 다른 과도기적 영역.
  4. Extreme-OOD: 인간이 우연 수준 (Chance level) 이하로 성능이 떨어지는 영역 (인식 불가능). 본 연구에서는 평가에서 제외.
정렬 지표 (Alignment Metrics):
- 오류 일관성 (Error Consistency, EC): 두 시스템이 동일한 자극을 맞거나 틀리는 정도 (정확도 일치).
- 오류 일치 (Misclassification Agreement, MA): 두 시스템이 모두 틀렸을 때, 동일한 오답 클래스를 선택하는 정도.
- 클래스 수준 오류 발산 (CLED): 서로 다른 왜곡 조건 간 오류 구조의 유사성을 측정.

3. 주요 결과 (Key Results)

OOD 스펙트럼의 유효성:
- 왜곡 유형 (Distortion Type) 보다 OOD 레벨 (난이도) 이 인간의 오류 패턴 구조를 설명하는 데 훨씬 더 강력한 영향을 미쳤습니다. 즉, 인간은 왜곡의 종류보다 '어렵다'는 정도에 따라 오류 패턴이 달라집니다.
- Near-OOD에서는 인간 간 오류가 자극에 의해 주도되어 일관성이 높았으나, Far-OOD로 갈수록 관찰자 (human) 간 차이가 커지며 체계성이 떨어졌습니다.
모델 아키텍처별 정렬 패턴 (Model-Human Alignment):
- Vision-Language Models (VLMs): Near-OOD 와 Far-OOD 모두에서 인간과 가장 일관되게 정렬되었습니다. 언어 기반의 의미론적 지식이 시각적 왜곡이 심한 상황에서도 인간과 유사한 오류 패턴을 유도하는 것으로 보입니다.
- CNNs vs. ViTs (Near-OOD): CNN 이 ViT 보다 인간과 더 잘 정렬되었습니다. 이는 CNN 의 텍스처 편향 (texture bias) 이 경미한 왜곡에서 인간이 텍스처와 형태를 모두 활용하는 방식과 우연히 일치할 수 있기 때문입니다.
- CNNs vs. ViTs (Far-OOD): Far-OOD 영역에서는 ViT 가 CNN 보다 인간과 더 잘 정렬되었습니다. 심한 왜곡 시 CNN 은 성능이 급격히 저하 (catastrophic failure) 하는 반면, ViT 는 고주파 텍스처에 덜 의존하여 인간과 유사한 거친 정보 처리를 유지합니다.
- 정확도 vs. 정렬: ViT 는 표준 작업에서 높은 정확도를 보이지만 Near-OOD 에서 인간과 다른 오류 패턴을 보였습니다. 즉, 높은 정확도가 인간과 유사한 실패 방식을 의미하지는 않습니다.
모델 가족 (Family) 내 정렬:
- 같은 아키텍처 패밀리 (예: CNN 내 VGG, ResNet) 는 서로 다른 패밀리에 비해 인간과의 정렬 패턴이 더 유사했습니다. 특히 VLM 은 패밀리 내 정렬이 매우 강하게 나타났습니다.

4. 주요 기여 (Key Contributions)

인간 중심 OOD 스펙트럼 제안: 임의의 이미지 처리 파라미터가 아닌, 인간의 지각 난이도를 기준으로 OOD 를 재정의하고 4 단계 영역으로 분류하는 새로운 프레임워크를 제시했습니다.
정교한 모델 - 인간 비교 체계: 단순한 정확도 비교를 넘어, Near-OOD와 Far-OOD 영역을 구분하여 모델이 인간과 어떻게 다른지 (또는 같은지) 를 체계적으로 분석할 수 있는 기준을 마련했습니다.
아키텍처별 정렬 특성 규명:
- VLM 이 전반적으로 가장 인간과 유사한 오류 패턴을 보임.
- CNN 은 Near-OOD 에서, ViT 는 Far-OOD 에서 인간과 더 유사한 정렬을 보임.
- 이는 모델의 인덕티브 바이어스 (inductive bias) 가 왜곡의 강도에 따라 다르게 발현됨을 보여줍니다.
신뢰할 수 있는 AI 평가 기준: 인간 - 인간 정렬을 상한선 (ceiling) 으로 설정하여, 모델이 인간과 얼마나 유사하게 실패하는지 (예측 가능성 및 해석 가능성) 를 정량화하는 방법을 제시했습니다.

5. 의의 및 결론 (Significance)

이 연구는 AI 모델의 신뢰성과 해석 가능성을 높이기 위해서는 단순히 정확도를 높이는 것을 넘어, 인간이 실패하는 방식과 유사하게 실패하는지를 평가해야 함을 강조합니다.

신뢰성 (Trustworthiness): 인간과 유사한 오류 패턴을 보이는 모델은 배포 환경에서 더 예측 가능하고, 인간의 한계를 반영하므로 덜 위험할 수 있습니다.
강건성 (Robustness): 인간은 다양한 왜곡에 대해 '우아하게 저하 (graceful degradation)'되는 반면, 많은 모델은 특정 왜곡에서 비약적으로 실패합니다. 인간 중심 OOD 스펙트럼은 이러한 강건성 차이를 정량화하는 도구를 제공합니다.
미래 방향: 제안된 프레임워크는 다양한 아키텍처의 개발과 평가에 있어, 인간 지각 원리를 반영한 설계의 중요성을 부각시킵니다. 특히 VLM 의 성공은 의미론적 정보가 시각적 불확실성 하에서 인간과 유사한 추론을 돕는다는 점을 시사합니다.

결론적으로, 이 논문은 "기계가 인간처럼 실패하는가?"라는 질문에 대해 **"어떤 조건 (OOD 영역) 에 따라 답이 다르다"**라고 답하며, 이를 평가하기 위한 과학적이고 체계적인 방법론을 제시했습니다.

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

1. 문제: "어떤 기준으로 실수를 비교할까?" (나쁜 나침반)

2. 해결책: "사람의 눈높이에 맞춘 난이도 지도" (새로운 나침반)

3. 발견: AI 모델들의 '성격'이 다릅니다

① CNN (전통적인 AI): "초반에는 사람과 비슷하지만, 끝까지 버티지 못함"

② ViT (비전 트랜스포머): "초반에는 사람과 다르지만, 끝까지 버틴다"

③ VLM (시각 - 언어 모델): "가장 인간적인 AI"

4. 결론: "정답보다 '틀리는 방식'이 중요하다"

1. 연구 배경 및 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation