Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

이 논문은 다국어 LLM 평가에서 발생하는 번역체 편향을 완화하기 위해, 편향 요인을 명시적으로 분리하고 정보 병목 원리를 적용한 새로운 파인튜닝 프레임워크인 DIBJudge 를 제안합니다.

Hongbin Zhang, Kehai Chen, Xuefen Bai, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 심판관의 '번역된 맛' 중독 (Translationese Bias)

상상해 보세요. 전 세계의 다양한 언어로 된 글을 평가하는 **거대 심판관 (LLM)**이 있습니다. 이 심판관은 원래 인간이 쓴 원본 글과, 기계가 번역해서 만든 글 중 어떤 것이 더 좋은지 판단해야 합니다.

하지만 문제는 이 심판관이 **기계가 번역한 글 (번역투)**을 인간이 쓴 원본보다 훨씬 더 좋아한다는 것입니다. 특히 영어가 아닌, 자료가 적은 언어 (예: 아프리카나 아시아의 소수 언어) 일수록 이 편향이 심해집니다.

  • 비유: 마치 요리 심판관이 있습니다. 이 심판관은 "한국인 요리사가 직접 만든 김치"와 "미국 요리사가 번역 레시피를 보고 만든 김치"를 맛봅니다. 그런데 심판관은 미국 요리사가 만든 김치가 더 맛있다고 판단합니다. 왜일까요?
    • 심판관 (LLM) 이 훈련된 데이터가 대부분 영어였기 때문입니다.
    • 그래서 심판관은 "영어 구조에 가깝게 번역된 글"을 더 자연스럽게, 더 똑똑하게 느끼는 착각에 빠집니다. 이를 논문에서는 **'번역투 편향 (Translationese Bias)'**이라고 부릅니다.

2. 원인: 왜 이런 일이 생길까요?

연구진은 이 심판관이 두 가지 **가짜 신호 (Spurious Factors)**에 속아 넘어간다고 분석했습니다.

  1. 영어와의 유사성: "이 글이 영어 구조랑 비슷하면 무조건 좋은 거야!"라고 착각합니다.
  2. 예측 가능성: "이 글이 기계가 번역할 때 나오는 통계적 패턴 (예상 가능한 단어 순서) 을 따르면 무조건 좋은 거야!"라고 착각합니다.
  • 비유: 심판관이 "음식의 맛"을 보지 않고, **"접시 모양이 영어권 식당 스타일인지"**나 **"요리사가 레시피를 너무 기계적으로 따랐는지"**만 보고 점수를 매기는 꼴입니다.

3. 해결책: DIBJUDGE (정보를 분리하는 똑똑한 심판관)

이 문제를 해결하기 위해 연구진은 DIBJUDGE라는 새로운 훈련 방법을 제안했습니다. 이 방법은 '정보 병목 (Information Bottleneck)' 이론을 활용합니다.

  • 핵심 아이디어: 심판관의 뇌를 두 개의 방으로 나눕니다.

    1. 진짜 맛을 보는 방 (Robust Branch): 글의 실제 의미와 내용만 담는 방입니다.
    2. 가짜 신호를 버리는 방 (Bias Branch): "영어 구조", "번역 패턴" 같은 가짜 신호만 담아서 버리는 방입니다.
  • 비유:

    • 기존 심판관은 한 개의 큰 주머니에 모든 정보 (맛 + 가짜 신호) 를 다 넣어서 판단했습니다. 그래서 가짜 신호에 속아 넘어갔습니다.
    • DIBJUDGE두 개의 주머니를 줍니다.
      • 하나는 진짜 내용만 꽉 채워 넣습니다.
      • 다른 하나는 번역투 같은 가짜 냄새만 쏙쏙 뽑아내서 따로 버립니다.
    • 그리고 이 두 주머니가 서로 섞이지 않도록 **벽 (Cross-covariance penalty)**을 세워줍니다.

4. 결과: 어떻게 변했나요?

이 새로운 방법을 적용한 심판관 (DIBJUDGE) 은 다음과 같은 놀라운 성과를 냈습니다.

  1. 편향 감소: 번역된 글을 무조건 좋아하던 습관이 사라졌습니다. 특히 자료가 부족한 언어에서도 원본과 번역본을 공정하게 평가합니다.
  2. 정확도 유지: 편향을 없애는 과정에서 원래의 평가 능력 (맛을 보는 능력) 이 떨어지지 않았습니다. 오히려 더 정확해졌습니다.
  3. 다른 편향까지 잡음: 번역투뿐만 아니라, "글이 길면 좋은 거야" (길이 편향) 나 "내가 쓴 글이 좋은 거야" (자기 선호 편향) 같은 다른 나쁜 습관까지 고쳐졌습니다.

5. 요약: 한 줄로 정리하면?

"영어 구조에 중독된 심판관 (LLM) 이 번역된 글을 더 좋아하던 버릇을 고쳐주기 위해, '진짜 내용'과 '가짜 번역 냄새'를 분리하는 두 개의 뇌를 만들어주니, 이제 모든 언어를 공정하게 평가하게 되었다."

이 연구는 AI 가 다양한 언어와 문화를 공정하게 대우할 수 있도록 돕는 중요한 첫걸음입니다.