What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

이 논문은 대조적 설명을 통해 기계 번역 모델이 성별을 선택하는 데 영향을 미치는 소스 문장의 입력 토큰을 분석하고, 인간의 성별 인식과 모델의 할당 패턴 간의 유사성을 규명하여 성별 편향을 완화하는 데 기여합니다.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 연구의 핵심: "누가 성별을 결정했을까?"

우리가 번역기를 사용할 때, "의사 (doctor)"라는 단어를 입력하면 기계는 보통 "남성 의사"로 번역하고, "간호사 (nurse)"는 "여성 간호사"로 번역하는 경향이 있습니다. 이는 기계가 학습한 데이터에 있는 고정관념 (편견) 때문입니다.

하지만 문제는 **"성별이 명확하지 않은 상황"**입니다.
예를 들어, "그 사람은 훌륭한 작가입니다"라고 영어로 썼을 때, '작가'는 성별이 없습니다. 이때 기계는 이 작가가 남성인지 여성인지 어떻게 정할까요?

이 연구는 기계가 어떤 단어를 보고 "아, 이 작가는 남성이구나 (또는 여성이구나)"라고 판단하는지 그 비밀의 열쇠를 찾아내려 했습니다.

🎭 비유: "성별을 결정하는 무대 위의 조명"

이 연구를 다음과 같이 상상해 보세요.

  1. 배경 (원문): 영어로 된 문장이 무대 위에 있습니다. 주인공은 성별이 모호한 '작가'입니다.
  2. 연출가 (기계 번역 모델): 이 문장을 독일어나 스페인어로 번역해야 합니다. 이 언어들은 '작가'라는 단어에도 남성형과 여성형이 따로 있습니다. 연출가는 고민합니다. "누구로 만들지?"
  3. 조명 (주목도 분석): 연구자들은 기계가 문장 속 어떤 단어에 가장 강한 조명을 비추고 있는지 분석했습니다.
    • 예를 들어, "그는 을 마시는 제조업자를 만났다"라는 문장이 있다면, 기계는 '술 (scotch)'이나 '제조업자 (maker)'라는 단어에 가장 강한 조명을 비추고, 이를 근거로 "아, 이건 남성일 거야"라고 결론 내렸을 수 있습니다.

🔍 연구가 찾아낸 놀라운 사실

연구진은 기계의 '조명 (중요도)'과 **사람들이 성별을 판단할 때 사용하는 '눈 (직감)'**을 비교했습니다.

1. 놀라운 일치 (85% 이상 겹침)

  • 결과: 기계가 "이 단어가 성별을 결정하는 데 중요해!"라고 생각한 단어들과, 사람이 "아, 이 단어를 보고 성별을 유추했어!"라고 생각한 단어가 약 85% 이상 겹쳤습니다.
  • 비유: 마치 기계와 사람이 같은 무대에서 같은 배우를 보고, "저 배우의 옷차림 (맥락) 을 보니 남성이겠지"라고 동일한 이유로 추측한다는 뜻입니다. 기계도 사람처럼 문맥을 읽는다는 것이 증명된 셈입니다.

2. 하지만, 세부적인 차이는 존재합니다

  • 차이점: 비록 결론은 비슷하게 나왔지만, 어떤 종류의 단어에 집중하는지는 달랐습니다.
    • 기계: 문장 속의 **동사 (Verb)**와 **명사 (Noun)**에 매우 민감하게 반응했습니다. (예: "만들다", "만들기" 같은 행동이나 직업 관련 단어)
    • 사람: 사람들도 명사와 동사를 보지만, **고유명사 (이름)**나 형용사 등 더 다양한 단서를 종합적으로 고려하는 경향이 있었습니다.
  • 비유: 기계는 "그 사람이 달리는 (동사) 모습을 보니 남성이겠지"라고 빠르게 판단하는 반면, 사람은 "그 사람이 **빨간 모자 (형용사)**를 쓰고 **이름이 김철수 (고유명사)**라니 남성이겠지"라고 더 넓은 맥락을 보는 것입니다.

3. 거리의 차이

  • 기계: 성별 결정에 영향을 주는 단어가 주인공 (작가) 바로 옆에 있는 경우가 많았습니다. (문법적으로 매우 가까운 관계)
  • 사람: 사람은 주인공과 조금 더 떨어진 곳에 있는 단어도 성별 판단에 활용했습니다. (더 넓은 문맥)

💡 이 연구가 우리에게 주는 메시지

이 연구는 단순히 "기계는 편견이 있다"라고 비난하는 것을 넘어, "왜 기계가 그렇게 생각했는지"근본 원인을 찾아냈습니다.

  • 기계의 잘못만은 아닙니다: 기계도 사람과 비슷하게 문맥을 읽습니다. 다만, 기계가 문맥을 읽는 '방식 (어떤 단어에 집중하는지)'이 사람과 조금 다를 뿐입니다.
  • 해결책의 열쇠: 기계가 어떤 단어에 '조명'을 비추는지 알면, 우리는 그 부분을 수정해서 성별 편견을 줄일 수 있습니다. 예를 들어, 기계가 '술'이라는 단어만 보고 남성을 선택한다면, '술'이라는 단어가 성별과 무관하다는 것을 가르쳐주면 됩니다.

📝 한 줄 요약

"기계 번역기도 사람처럼 문맥을 보고 성별을 추측하지만, 우리가 생각하는 '중요한 단서'와 기계가 생각하는 '중요한 단서'가 조금씩 다릅니다. 이 차이를 이해하면 더 공정하고 똑똑한 번역기를 만들 수 있습니다."

이 연구는 기계가 '블랙박스 (알 수 없는 상자)'처럼 작동하는 것이 아니라, 우리가 그 내부의 작동 원리를 이해하고 개선할 수 있음을 보여줍니다.