Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 심판관의 '번역된 맛' 중독 (Translationese Bias)

상상해 보세요. 전 세계의 다양한 언어로 된 글을 평가하는 **거대 심판관 (LLM)**이 있습니다. 이 심판관은 원래 인간이 쓴 원본 글과, 기계가 번역해서 만든 글 중 어떤 것이 더 좋은지 판단해야 합니다.

하지만 문제는 이 심판관이 **기계가 번역한 글 (번역투)**을 인간이 쓴 원본보다 훨씬 더 좋아한다는 것입니다. 특히 영어가 아닌, 자료가 적은 언어 (예: 아프리카나 아시아의 소수 언어) 일수록 이 편향이 심해집니다.

비유: 마치 요리 심판관이 있습니다. 이 심판관은 "한국인 요리사가 직접 만든 김치"와 "미국 요리사가 번역 레시피를 보고 만든 김치"를 맛봅니다. 그런데 심판관은 미국 요리사가 만든 김치가 더 맛있다고 판단합니다. 왜일까요?
- 심판관 (LLM) 이 훈련된 데이터가 대부분 영어였기 때문입니다.
- 그래서 심판관은 "영어 구조에 가깝게 번역된 글"을 더 자연스럽게, 더 똑똑하게 느끼는 착각에 빠집니다. 이를 논문에서는 **'번역투 편향 (Translationese Bias)'**이라고 부릅니다.

2. 원인: 왜 이런 일이 생길까요?

연구진은 이 심판관이 두 가지 **가짜 신호 (Spurious Factors)**에 속아 넘어간다고 분석했습니다.

영어와의 유사성: "이 글이 영어 구조랑 비슷하면 무조건 좋은 거야!"라고 착각합니다.
예측 가능성: "이 글이 기계가 번역할 때 나오는 통계적 패턴 (예상 가능한 단어 순서) 을 따르면 무조건 좋은 거야!"라고 착각합니다.

비유: 심판관이 "음식의 맛"을 보지 않고, **"접시 모양이 영어권 식당 스타일인지"**나 **"요리사가 레시피를 너무 기계적으로 따랐는지"**만 보고 점수를 매기는 꼴입니다.

3. 해결책: DIBJUDGE (정보를 분리하는 똑똑한 심판관)

이 문제를 해결하기 위해 연구진은 DIBJUDGE라는 새로운 훈련 방법을 제안했습니다. 이 방법은 '정보 병목 (Information Bottleneck)' 이론을 활용합니다.

핵심 아이디어: 심판관의 뇌를 두 개의 방으로 나눕니다.
1. 진짜 맛을 보는 방 (Robust Branch): 글의 실제 의미와 내용만 담는 방입니다.
2. 가짜 신호를 버리는 방 (Bias Branch): "영어 구조", "번역 패턴" 같은 가짜 신호만 담아서 버리는 방입니다.
비유:
- 기존 심판관은 한 개의 큰 주머니에 모든 정보 (맛 + 가짜 신호) 를 다 넣어서 판단했습니다. 그래서 가짜 신호에 속아 넘어갔습니다.
- DIBJUDGE는 두 개의 주머니를 줍니다.
  - 하나는 진짜 내용만 꽉 채워 넣습니다.
  - 다른 하나는 번역투 같은 가짜 냄새만 쏙쏙 뽑아내서 따로 버립니다.
- 그리고 이 두 주머니가 서로 섞이지 않도록 **벽 (Cross-covariance penalty)**을 세워줍니다.

4. 결과: 어떻게 변했나요?

이 새로운 방법을 적용한 심판관 (DIBJUDGE) 은 다음과 같은 놀라운 성과를 냈습니다.

편향 감소: 번역된 글을 무조건 좋아하던 습관이 사라졌습니다. 특히 자료가 부족한 언어에서도 원본과 번역본을 공정하게 평가합니다.
정확도 유지: 편향을 없애는 과정에서 원래의 평가 능력 (맛을 보는 능력) 이 떨어지지 않았습니다. 오히려 더 정확해졌습니다.
다른 편향까지 잡음: 번역투뿐만 아니라, "글이 길면 좋은 거야" (길이 편향) 나 "내가 쓴 글이 좋은 거야" (자기 선호 편향) 같은 다른 나쁜 습관까지 고쳐졌습니다.

5. 요약: 한 줄로 정리하면?

"영어 구조에 중독된 심판관 (LLM) 이 번역된 글을 더 좋아하던 버릇을 고쳐주기 위해, '진짜 내용'과 '가짜 번역 냄새'를 분리하는 두 개의 뇌를 만들어주니, 이제 모든 언어를 공정하게 평가하게 되었다."

이 연구는 AI 가 다양한 언어와 문화를 공정하게 대우할 수 있도록 돕는 중요한 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의: 번역체 편향 (Translationese Bias)

현상: 다국어 LLM 평가 모델이 인간이 작성한 원본 텍스트보다 기계 번역된 텍스트를 선호하는 체계적 편향이 존재합니다. 특히 저자원 언어 (Low-resource languages) 에서 이 편향이 극심하게 나타납니다.
원인 분석: 저자들은 이 편향이 두 가지 **허위 상관관계 (Spurious Correlations)**에서 기인한다고 분석했습니다.
1. 영어 잠재 매니폴드 정렬 (Latent Manifold Alignment with English): 다국어 모델이 영어 중심의 잠재 공간에 비영어 텍스트를 암묵적으로 정렬하는 경향.
2. 교차 언어 예측 가능성 (Cross-lingual Predictability): 기계 번역 텍스트가 통계적으로 더 예측 가능 (높은 확률, 낮은 엔트로피) 하여 모델이 이를 선호하는 경향.
기존 방법의 한계: 기존의 지도 미세조정 (SFT) 은 이러한 허위 상관관계를 학습하여 편향을 완화하지 못하고 오히려 악화시킵니다.

2. 제안 방법: DIBJUDGE (Disentangled Information Bottleneck Judge)

저자는 허위 요소를 제거하고 평가에 필수적인 의미 정보만 남기 위해 분리된 정보 병목 (Disentangled Information Bottleneck) 원리를 적용한 새로운 파인튜닝 프레임워크를 제안합니다.

핵심 메커니즘

이중 인코더 구조 (Dual Encoder Architecture):
- Robust Encoder ( $Z_r$ ): 평가에 필수적인 의미 정보를 보존하는 표현을 학습.
- Bias Encoder ( $Z_b$ ): 번역체 편향과 같은 허위 요소를 흡수하는 전용 '싱크 (sink)' 역할을 하는 표현을 학습.
분리된 정보 병목 목적 함수 (Disentangled IB Objective):
- 예측 (Prediction): $Z_r$ 을 통해 태스크 (평가) 를 정확히 수행하도록 최대화 ( $I(Y; Z_r)$ ).
- 압축 (Compression): $Z_r$ 이 입력 $X$ 에 대해 최소한의 정보만 갖도록 제한하여 불필요한 노이즈 제거 ( $I(X; Z_r)$ 최소화).
- 편향 포착 (Bias Capture): $Z_b$ 가 허위 속성 $S$ (예: 영어 정렬도, 예측 확률) 를 잘 포착하도록 학습 ( $I(S; Z_b)$ 최대화).
- 분리 (Disentanglement): $Z_r$ 과 $Z_b$ 간의 의존성을 최소화하여 두 표현이 서로 겹치지 않도록 강제 ( $I(Z_r; Z_b)$ 최소화).
구현 기술:
- 변분 정보 병목 (Variational IB): 상호 정보량을 추정하기 어렵기 때문에, 변분 추론을 통해 KL 발산을 이용한 상한선을 설정하여 압축을 구현.
- 교차 공분산 페널티 (Cross-Covariance Penalty): 고차원 공간에서 상호 정보량 최소화를 계산적으로 효율적으로 수행하기 위해, 가우스 가정 하에 **교차 공분산 행렬의 노름 (Frobenius norm)**을 최소화하여 두 표현 간의 통계적 독립성을 확보.
- 대리 태스크 (Proxy Tasks):
  - 교차 언어 정렬 대비 학습 (Cross-lingual Alignment Contrastive Learning): 영어 잠재 공간과의 정렬 정도를 측정.
  - 로그 확률 빈 분류 (Log-Probability Bin Classification): 텍스트의 예측 가능성 (Surprisal) 을 분류하여 편향 요인을 포착.

3. 주요 실험 결과

평가 벤치마크: M-RewardBench, RewardBench, MM-Eval 등 다국어 보상 모델링 벤치마크 및 전용 번역체 편향 평가 세트를 사용.
성능 향상:
- DIBJUDGE (Qwen3 기반) 는 기존 SFT 기반 모델 및 강력한 오픈소스/상용 모델 (GPT-4o, Gemini 등) 보다 다국어 보상 모델링 정확도에서 SOTA(최고 성능) 를 기록했습니다.
- 특히 저자원 언어에서의 성능 향상이 두드러졌습니다.
편향 완화 효과:
- 번역체 편향 심각도 (Bias Severity) 가 평균 56%~80% 감소했습니다.
- 저자원 언어에서 기존 모델이 보였던 편향이 DIBJUDGE 에서는 거의 사라졌습니다.
분리 효과 검증:
- t-SNE 시각화 결과, $Z_b$ (편향 표현) 는 텍스트의 출처 (인간 vs 기계) 에 따라 명확히 분리되는 반면, $Z_r$ (강건한 표현) 은 출처와 무관하게 섞여 있어 의미 정보가 성공적으로 분리되었음을 입증했습니다.
일반화 능력: 훈련 시 학습되지 않은 다른 편향 (길이 편향, 자기 선호 편향) 에 대해서도 우수한 강건성을 보였습니다.

4. 기여 및 의의

새로운 편향의 규명: 다국어 LLM 평가에서 '번역체 편향'을 체계적으로 정의하고, 이를 유발하는 두 가지 핵심 허위 요인 (영어 정렬, 예측 가능성) 을 규명했습니다.
혁신적인 아키텍처 제안: 정보 병목 원리를 '분리 (Disentanglement)' 개념과 결합하여, 편향 요소를 명시적으로 격리하고 제거하는 새로운 파인튜닝 프레임워크 (DIBJUDGE) 를 제시했습니다.
실용적 가치: 다국어 LLM 의 신뢰성을 높여, 저자원 언어를 포함한 전 세계 언어에 대한 공정한 평가를 가능하게 합니다. 이는 다국어 AI 시스템의 포용성과 안전성을 보장하는 데 중요한 기여를 합니다.

요약

이 논문은 다국어 LLM 평가자가 기계 번역 텍스트를 선호하는 치명적인 편향을 발견하고, 이를 해결하기 위해 강건한 의미 정보와 편향 요소를 분리하여 학습하는 DIBJUDGE를 제안했습니다. 실험을 통해 이 방법이 기존 방법론보다 편향을 획기적으로 줄이면서도 평가 정확도는 유지하거나 향상시킴을 입증했습니다.

Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

1. 문제: 심판관의 '번역된 맛' 중독 (Translationese Bias)

2. 원인: 왜 이런 일이 생길까요?

3. 해결책: DIBJUDGE (정보를 분리하는 똑똑한 심판관)

4. 결과: 어떻게 변했나요?

5. 요약: 한 줄로 정리하면?

1. 문제 정의: 번역체 편향 (Translationese Bias)

2. 제안 방법: DIBJUDGE (Disentangled Information Bottleneck Judge)

핵심 메커니즘

3. 주요 실험 결과

4. 기여 및 의의

요약

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models