What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 연구의 핵심: "누가 성별을 결정했을까?"

우리가 번역기를 사용할 때, "의사 (doctor)"라는 단어를 입력하면 기계는 보통 "남성 의사"로 번역하고, "간호사 (nurse)"는 "여성 간호사"로 번역하는 경향이 있습니다. 이는 기계가 학습한 데이터에 있는 고정관념 (편견) 때문입니다.

하지만 문제는 **"성별이 명확하지 않은 상황"**입니다.
예를 들어, "그 사람은 훌륭한 작가입니다"라고 영어로 썼을 때, '작가'는 성별이 없습니다. 이때 기계는 이 작가가 남성인지 여성인지 어떻게 정할까요?

이 연구는 기계가 어떤 단어를 보고 "아, 이 작가는 남성이구나 (또는 여성이구나)"라고 판단하는지 그 비밀의 열쇠를 찾아내려 했습니다.

🎭 비유: "성별을 결정하는 무대 위의 조명"

이 연구를 다음과 같이 상상해 보세요.

배경 (원문): 영어로 된 문장이 무대 위에 있습니다. 주인공은 성별이 모호한 '작가'입니다.
연출가 (기계 번역 모델): 이 문장을 독일어나 스페인어로 번역해야 합니다. 이 언어들은 '작가'라는 단어에도 남성형과 여성형이 따로 있습니다. 연출가는 고민합니다. "누구로 만들지?"
조명 (주목도 분석): 연구자들은 기계가 문장 속 어떤 단어에 가장 강한 조명을 비추고 있는지 분석했습니다.
- 예를 들어, "그는 술을 마시는 제조업자를 만났다"라는 문장이 있다면, 기계는 '술 (scotch)'이나 '제조업자 (maker)'라는 단어에 가장 강한 조명을 비추고, 이를 근거로 "아, 이건 남성일 거야"라고 결론 내렸을 수 있습니다.

🔍 연구가 찾아낸 놀라운 사실

연구진은 기계의 '조명 (중요도)'과 **사람들이 성별을 판단할 때 사용하는 '눈 (직감)'**을 비교했습니다.

1. 놀라운 일치 (85% 이상 겹침)

결과: 기계가 "이 단어가 성별을 결정하는 데 중요해!"라고 생각한 단어들과, 사람이 "아, 이 단어를 보고 성별을 유추했어!"라고 생각한 단어가 약 85% 이상 겹쳤습니다.
비유: 마치 기계와 사람이 같은 무대에서 같은 배우를 보고, "저 배우의 옷차림 (맥락) 을 보니 남성이겠지"라고 동일한 이유로 추측한다는 뜻입니다. 기계도 사람처럼 문맥을 읽는다는 것이 증명된 셈입니다.

2. 하지만, 세부적인 차이는 존재합니다

차이점: 비록 결론은 비슷하게 나왔지만, 어떤 종류의 단어에 집중하는지는 달랐습니다.
- 기계: 문장 속의 **동사 (Verb)**와 **명사 (Noun)**에 매우 민감하게 반응했습니다. (예: "만들다", "만들기" 같은 행동이나 직업 관련 단어)
- 사람: 사람들도 명사와 동사를 보지만, **고유명사 (이름)**나 형용사 등 더 다양한 단서를 종합적으로 고려하는 경향이 있었습니다.
비유: 기계는 "그 사람이 달리는 (동사) 모습을 보니 남성이겠지"라고 빠르게 판단하는 반면, 사람은 "그 사람이 **빨간 모자 (형용사)**를 쓰고 **이름이 김철수 (고유명사)**라니 남성이겠지"라고 더 넓은 맥락을 보는 것입니다.

3. 거리의 차이

기계: 성별 결정에 영향을 주는 단어가 주인공 (작가) 바로 옆에 있는 경우가 많았습니다. (문법적으로 매우 가까운 관계)
사람: 사람은 주인공과 조금 더 떨어진 곳에 있는 단어도 성별 판단에 활용했습니다. (더 넓은 문맥)

💡 이 연구가 우리에게 주는 메시지

이 연구는 단순히 "기계는 편견이 있다"라고 비난하는 것을 넘어, "왜 기계가 그렇게 생각했는지" 그 근본 원인을 찾아냈습니다.

기계의 잘못만은 아닙니다: 기계도 사람과 비슷하게 문맥을 읽습니다. 다만, 기계가 문맥을 읽는 '방식 (어떤 단어에 집중하는지)'이 사람과 조금 다를 뿐입니다.
해결책의 열쇠: 기계가 어떤 단어에 '조명'을 비추는지 알면, 우리는 그 부분을 수정해서 성별 편견을 줄일 수 있습니다. 예를 들어, 기계가 '술'이라는 단어만 보고 남성을 선택한다면, '술'이라는 단어가 성별과 무관하다는 것을 가르쳐주면 됩니다.

📝 한 줄 요약

"기계 번역기도 사람처럼 문맥을 보고 성별을 추측하지만, 우리가 생각하는 '중요한 단서'와 기계가 생각하는 '중요한 단서'가 조금씩 다릅니다. 이 차이를 이해하면 더 공정하고 똑똑한 번역기를 만들 수 있습니다."

이 연구는 기계가 '블랙박스 (알 수 없는 상자)'처럼 작동하는 것이 아니라, 우리가 그 내부의 작동 원리를 이해하고 개선할 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

기존 연구의 한계: 기존 성별 편향 연구는 주로 모호하지 않은 문맥 (대명사 등 명확한 단서 존재) 에서 편향을 측정하거나, 인공적으로 제작된 문장에 집중했습니다. 또한, 편향을 '측정'하는 데 그쳤을 뿐, 모델이 어떤 입력 토큰 (source tokens) 에 기반하여 특정 성별을 선택하는지 그 원인을 규명하는 해석 가능성 연구는 부족했습니다.
핵심 문제: 성별이 모호한 자연어 (예: "The writer is here") 에서 기계 번역 모델은 문맥적 단서 없이 훈련 데이터의 편향이나 고정관념에 의존하여 성별 (남성/여성) 을 임의로 선택합니다. 인간은 어떤 문맥적 단서 (contextual cues) 를 통해 성별을 추론하는지, 그리고 모델은 어떤 단어를 '중요한 (salient)' 단어로 인식하여 성별을 결정하는지 비교 분석할 필요가 있습니다.
연구 질문 (RQs):
1. 번역 모델의 성별 결정에 대한 소스 단어의 기여도 (attribution level) 를 효과적으로 측정할 수 있는가?
2. 어떤 유형의 소스 단어가 성별 번역에 가장 중요한가?
3. 모델이 중요하게 여기는 단어와 인간이 중요하게 여기는 단어 간 일치도는 어느 정도인가?

2. 방법론 (Methodology)

2.1 데이터셋

소스 언어: 성별이 모호한 자연 영어 (EN) 문장 60 개 (단일 대상 명사 중심, 예: 'writer', 'poet').
목표 언어: 독일어 (DE), 스페인어 (ES).
모델: 오픈 소스 NMT 모델인 OPUS-MT 사용.
인간 주석: 20 명의 주석자가 각 문장에서 성별 인식에 영향을 준 소스 단어를 하향식 (bottom-up) 으로 주석함.

2.2 실험 설계: 대비적 설명 (Contrastive Explanations)

원본 번역 생성: EN 문장을 DE/ES 로 번역.
대조 번역 (Foil) 생성: 원본 번역의 성별을 반대로 바꾼 문법적으로 올바른 번역을 수동으로 생성 (예: 남성형 'Berater' $\rightarrow$ 여성형 'Beraterin').
사양도 할당 (Saliency Attribution) 계산:
- Contrastive Gradient Norm 기법 사용 (Yin & Neubig, 2022).
- 원본 번역과 대조 번역 간의 확률 차이를 기반으로 입력 토큰이 모델의 결정에 미친 영향력 (기울기 노름) 을 계산.
- 목표 어휘 (target referent) 와 그 이전의 생성된 토큰의 영향을 배제하고, 소스 텍스트의 토큰에 대한 사양도 점수만 분석.

2.3 분석 접근법 (Attribution Levels)

모델이 중요하게 여기는 단어를 식별하기 위해 4 가지 임계값 설정 방식을 비교:

Top X%: 전체 소스 단어 중 점수가 높은 상위 X% (5~25%).
Top 1 Word: 점수가 가장 높은 단어 1 개.
Absolute Threshold: 특정 점수 (0.01~0.10) 이상인 단어.
Relative Cumulative: 문장 내 누적 점수가 전체의 X% (5~50%) 에 도달하는 최소 단어 집합.

2.4 평가 지표

모델 - 인간 중첩 (Model-Human Overlap): 모델이 중요하다고 판단한 단어와 인간 주석자가 표시한 단어 간의 정밀도 (Precision) 계산.
언어학적 분석: 중요 단어의 품사 (POS) 분포 및 목표 명사와의 의존 거리 (dependency distance) 분석.

3. 주요 결과 (Results)

3.1 모델 - 인간 일치도 (RQ1, RQ3)

높은 일치도: 모델이 중요하게 여기는 단어와 인간이 성별 인식에 영향을 준 단어 간의 일치도가 매우 높게 나타남.
최적 접근법: 상대적 누적 점수 (Approach 4) 방식에서 가장 높은 일치도를 보임.
- 문장별 누적 점수의 상위 15% 를 포함할 때 평균 정밀도 (Micro Precision) 가 0.851로 최고치를 기록함.
- 이는 모델과 인간이 성별 추론에 유사한 문맥적 단서를 사용함을 시사합니다.
주석자 간 합의 영향: 주석자 2 명 이상이 동의한 단어만 필터링할 경우 일치도는 감소 (DE: 0.69, ES: 0.78) 하지만 여전히 유의미함. 이는 인간 간 성별 인식 편차 (IAA $\kappa$ =0.364) 가 존재함을 반영.

3.2 언어적 분석 (RQ2)

품사 (POS) 분포 차이:
- 모델: 명사 (Nouns) 와 동사 (Verbs) 가 가장 중요한 단어로 작용 (약 60% 이상 차지).
- 인간: 고유명사, 형용사, 명사, 동사 등 더 균형 잡힌 분포를 보임.
- 의미: 모델은 문법적 구조나 특정 품사 (명사/동사) 에 과도하게 의존하는 반면, 인간은 더 다양한 언어적 단서를 종합적으로 활용함.
의존 거리 (Dependency Distance):
- 모델: 목표 명사와 문법적 거리 1~2 이내의 단어에 가장 큰 영향을 받음 (국소적 문맥 의존).
- 인간: 목표 명사보다 더 먼 거리 (거리 3 이상) 에 있는 단어에도 영향을 받음 (광범위한 문맥 의존).

3.3 이상치 분석

모델이 인간이 주석하지 않은 단어를 중요하게 여기는 경우 (Outliers) 는 주로 동사, 숫자, 또는 토큰화 오류 ( 포함) 에서 발생.

4. 주요 기여 및 의의 (Contributions & Significance)

편향 측정에서 원인 규명으로의 전환: 단순히 "모델이 편향적이다"를 증명하는 것을 넘어, 어떤 입력 토큰이 성별 결정을 트리거하는지 구체적으로 규명하여 편향의 기원을 탐색했습니다.
해석 가능성 기법의 적용: 대비적 설명 (Contrastive Explanations) 과 사양도 할당을 활용하여 블랙박스 모델의 성별 결정 과정을 인간이 이해할 수 있는 수준으로 해석 가능하게 만들었습니다.
인간 - 모델 비교의 통찰:
- 모델과 인간이 유사한 문맥적 단서를 공유한다는 점 (높은 일치도) 을 확인했습니다.
- 하지만 단어의 중요성 부여 방식 (POS 분포) 과 문맥의 범위 (의존 거리) 에서 근본적인 차이가 있음을 발견했습니다. 모델은 국소적이고 문법적 구조에 치중하는 반면, 인간은 더 넓은 의미적 맥락을 고려합니다.
편향 완화의 방향성 제시: 모델의 성별 편향을 완화하기 위해서는 단순히 데이터 정제뿐만 아니라, 모델이 어떤 문맥적 단서를 과도하게 의존하는지를 이해하고 이를 교정하는 전략이 필요함을 시사합니다.

5. 결론

이 연구는 성별이 모호한 자연어 번역에서 기계 번역 모델이 인간의 성별 인식과 유사한 문맥적 단서를 사용하지만, 그 집중도와 범위에서 차이를 보임을 입증했습니다. 해석 가능성 기법을 통해 모델의 의사결정 과정을 투명하게 밝히는 것은 성별 편향을 완화하고 더 공정한 번역 시스템을 개발하는 데 필수적인 첫걸음임을 강조합니다.