당신이 두 사람이 질문에 답하는 것을 지켜보고 누가 더 잘했는지 결정하는 아주 똑똑하고 자동화된 심판(AI)을 가지고 있다고 상상해 보십시오. 이것은 오늘날 많은 현대적 AI 시스템이 테스트되는 방식입니다. 즉, 하나의 AI가 다른 AI들을 심사하는 판사 역할을 하는 것입니다.

이 논문은 단순하지만 까다로운 질문을 던집니다. 이 심판은 답변이 사용된 언어에 신경을 쓰는가, 아니면 오직 답변의 품질에만 신경을 쓰는가?

요리 경연 대회를 생각해 보십시오. 두 명의 요리사가 정확히 똑같이 맛있는 수프를 만들었지만, 한 명은 화려한 프랑스 레스토랑에서 선보이고 다른 한 명은 캐주얼한 식당에서 선보인다면, 심판은 그저 "더 고급스럽게" 들린다는 이유로 더 높은 점수를 줄까요? 아니면 심판은 수프를 맛보고 그것들이 동일하다는 것을 깨달을까요?

실험: "언어 번역기" 테스트

연구진은 표준적인 419개의 질문과 답변 세트(LLMBar라는 벤치마크)를 가져와 네 가지 서로 다른 AI 심판을 통해 실행했습니다. 이들은 세 가지 다른 "의상(조건)"으로 이를 수행했습니다:

영어: 원본 버전.
중국어: 질문과 답변을 완벽하게 중국어로 번역한 동일한 버전.
코드 스위칭(Code-Switching): 영어와 중국어를 혼합하여 사용하는 것(예를 들어, "Please send the email to the manager"처럼 자연스럽게 언어를 섞어서 말하는 것).

또한 그들은 특별한 "타이브레이커(결승전)" 테스트를 진행했습니다. 완벽한 영어 답변과 그에 대응하는 완벽한 중국어 번역본을 가져와서 심판에게 비교하도록 요청했습니다. 내용이 동일하기 때문에, 심판은 "무승부!"라고 말해야 합니다.

연구 결과

결과는 다소 놀라웠으며, 심판들이 우리가 희망하는 만큼 중립적이지 않다는 것을 보여주었습니다.

"영어 억양" 편향: 모든 심판은 답변이 영어일 때 가장 높은 성능을 보였습니다. 답변이 중국어이거나 혼합된 언어일 때, 심판들은 더 많은 실수를 저질렀습니다. 마치 심판이 참가자들이 다른 방언을 사용하면, 비록 논리는 동일할지라도 조금 혼란스러워하거나 예리함이 떨어지는 것과 같습니다.
"변덕(Flip-Flop)" 문제: 약 **11%에서 14%**의 경우에서, 심판은 언어가 바뀌었다는 이유만으로 마음을 바꿨습니다.
- 비유: 심판 A가 메뉴가 영어로 되어 있을 때는 "요리사 1의 승리!"라고 말한다고 가정해 봅시다. 하지만 만약 당신이 똑같은 메뉴를 중국어로 번ante 된 상태로 건네준다면, 심판 A는 음식이 전혀 바뀌지 않았음에도 불구하고 갑자기 "사실은 요리사 2가 승리했습니다!"라고 말합니다. 이것을 "선호도 역전(preference flip)"이라고 부릅니다.
단순히 "영어가 더 좋다"는 문제가 아님: 심판들이 단순히 영어를 좋아하고 다른 언어를 싫어한다고 생각할 수도 있습니다. 하지만 "타이브레이커" 테스트는 더 복잡한 것을 보여주었습니다. 영어 답변과 그 중국어 번역본 사이에서 승자를 결정해야 할 때, 심판들은 실제로 영어보다 중국어를 더 자주 선택했습니다!
- 핵심 요점: 문제는 심판들이 맹목적으로 영어를 선호하는 것이 아닙니다. 문제는 그들이 불안정하다는 것입니다. 그들은 정보가 제시되는 방식, 즉 언어, 답변이 나타나는 순서, 또는 두 언어의 혼합 여부에 따라 쉽게 흔들립니다.

이것이 왜 중요한가

만약 당신이 중국의 사람들을 돕거나 혼합 언어 대화를 처리하기 위한 AI 시스템을 구축하고 있다면, 영어로 훈련된 심판을 공정하다고 그냥 믿어서는 안 됩니다.

"취약한" 심판: 좋은 심판은 바위처럼 단단한 저울 같아야 합니다. 무게를 올려두면, 그 무게를 킬로그램으로 설명하든 파운드로 설명하든 동일한 수치를 보여주어야 합니다. 이 AI 심판들은 마치 흔들거리는 저울과 같습니다. 어떻게 들고 있느냐에 따라 수치가 변합니다.
혼란의 대가: 심판들이 언어가 바뀌었다는 이유로 결정을 뒤집는 경우가 빈번하기 때문에(약 10번 중 1번꼴), 그들은 실수로 더 열등한 AI를 승자로 잘못 선정할 수 있습니다.

제안된 해결책

저자들은 Judge-LS라고 불리는 새로운 가벼운 "건강 검진"을 제안합니다. 다국어 환경에서 모델의 순위를 매기는 AI 심판을 신뢰하기 전에, 이 간단한 테스트를 실행해야 합니다:

테스트를 대상 언어로 번역합니다.
심판을 다시 실행합니다.
심판이 마음을 바꾸는지 확인합니다.

만약 심판이 너무 자주 마음을 바꾼다면, 그 심판은 그 일을 맡을 준비가 되지 않은 것입니다. 이는 마치 다른 억양 때문에 혼란스러워하는 심판을 고용하는 것과 같습니다. 당신에게 필요한 것은 게임이 아니라 언어를 심판하는 심판입니다.

요약하자면: 이 논문은 현재 AI 심판들이 언어 변화에 민감하다는 것을 증명합니다. 그들은 단순히 "영어를 사랑하는 것"이 아니라, 우리가 어떤 AI가 최고인지 결정하도록 신뢰하기 전에 일관성을 테스트해야 하는 "불안정한 관찰자"입니다.

기술 요약: 판사는 영어를 선호하는가? LLM-as-a-Judge의 언어 전환 불변성 평가

1. 문제 정의

개방형 지시 이행(instruction-following) 평가를 위한 자동 판사로서 대규모 언어 모델(LLM)의 광범위한 채택은 중요한 신뢰성 문제를 제기한다: 판사가 답변의 의미론적 품질을 평가하는가, 아니면 비교가 제시되는 언어에 반응하여 선호도를 나타내는가?

LLM-as-a-Judge는 참조 기반 메트릭보다 우수한 확장성과 의미론적 인식을 제공하지만, 생성 모델의 편향을 그대로 물려받는다. 선행 연구들은 위치 편향(position bias), 장황함 편향(verbosity bias), 프롬프트 민감도 등을 기록해 왔다. 본 논문은 특정 신뢰성 실패 모드인 **언어 전환 불변성(language-switching invariance)**을 분리하여 조사한다. 구체적으로, 근본적인 품질 관계("골드 라벨")가 변하지 않는다고 가정할 때, 판사가 영문, 중문, 그리고 중-영 혼용(language-switched) 버전으로 제시된 쌍체 비교(pairwise comparison)에서 동일한 선호도를 유지하는지 조사한다.

2. 방법론: Judge-LS 프로토콜

저자들은 API 호출만을 사용하여 언어 전환 불변성을 테스트하기 위해 설계된 가볍고 훈련이 필요 없는 메타 평가 프로토콜인 Judge-LS를 제안한다.

2.1 기본 데이터 및 변환

데이터셋: 본 연구는 객관적인 골드 라벨(어떤 응답이 지시를 더 잘 따르는지 나타냄)을 포함하는 419개의 쌍체 항목(하나의 자연적 하위 집합과 네 개의 적대적 하위 집합)으로 구성된 전체 LLMBar 벤치마크를 활용한다.
언어 변형: 모든 항목에 대해 세 가지 버전을 생성한다:
1. EN: 원본 영어 버전.
2. ZH: 지시문과 두 후보 출력 모두를 자연스러운 간체 중국어로 번역한 버전.
3. LS: 적절한 경우 영어 작업 용어, 고유 명사, 기술 용어를 보존하는 자연스러운 중-영 혼용 변형 버전.
변환 모델: 번역을 위해 gpt-4.1-mini를 사용한다. 프롬프트는 "조용한 수정(silent repairs)"으로 인해 골드 라벨의 유효성이 훼�될 수 없도록 모든 사실적, 수학적, 형식적, 지시 이행 오류를 보존할 것을 명시적으로 지시한다.
**감사(Audit): 필드 완결성을 검증하고 위험도가 높은 변형(예: 심각한 길이 축소, 숫자 토큰 불일치)을 식별한다. 19개 항목(4.5%)이 식별되었으며, 민감도 분석을 통해 이들을 제외하였다.

2.2 실험 설계

판사(Judges): 네 가지 API 접근 가능 모델을 평가하였다:
- GPT-4.1 Mini
- Claude Haiku 4.5
- Gemini 2.5 Flash
- DeepSeek V4 Flash
판단 구성: 각 항목은 세 가지 언어 조건 하에서 각각 평가된다. 각 조건에 대해, 판사는 원본 순서와 교체된 순서(A vs. B)의 답변을 모두 받는다. 또한, 언어 선호도를 테스트하기 위해 영어 골드 답변을 중국어 번역본과 비교하는 **번역 등가 타이 프로브(translation-equivalent tie probes)**를 생성한다.
총 규모: 실험을 통해 13,408개의 고유한 쌍체 판단을 생성하였다.

2.3 메트릭

본 연구는 단순 정확도를 넘어 다음과 같은 진단적 메트릭을 보고한다:

엄격 정확도(Strict Accuracy) 및 Tie-Half 정확도: 골드 라벨과의 일치도를 측정하며, 후자는 "Tie(무승부)" 예측에 부분 점수를 부여한다.
언어 불변성 플립 비율(Language-Invariance Flip Rate): 언어 변환(EN vs. ZH/LS)만으로 선호도가 변하는 판단의 비율.
골드 정답성 플립 비율(Gold-Correctness Flip Rate): 번역 후 정답이 오답이 되거나(또는 그 반대로) 바뀌는 사례의 비율.
위치 불일치(Position Inconsistency): 답변 순서를 바꿨을 때 승자가 바뀌는 비율.
타이 프로브 언어 선호도(Tie-Probe Language Preference): 번역 등가 타이 프로브에서 영어와 중국어 간의 승리 분포.
통계적 엄밀성: 본 논문은 쌍체 비교를 위해 Wilson 95% 신뢰 구간과 정확한 양측 McNemar/이항 검정을 사용한다.

3. 주요 결과

3.1 정확도 및 안정성

영어 우위: 네 명의 판사 모두 영어에서 가장 높은 정확도를 달erm했다. 예를 들어, DeepSeek의 tie-half 정확도는 **90.5%(EN)**에서 87.8%(ZH) 및 **88.9%(LS)**로 떨어졌다.
유의미한 플립 비율: 언어 변환은 영어 대비 **10.7%에서 14.4%**의 사례에서 선호도 플립을 유발했다.
- GPT-4.1 Mini와 Claude Haiku는 중국어 번역에 가장 민감했다(각각 14.4% 및 14.2%의 플립 비율).
- DeepSeek와 Gemini는 여전히 상당하지만 더 낮은 플립 비율(~11.1%)을 보였다.
정답성 영향: 골드 정답성 플립 비율은 선호도 플립 비율과 밀접하게 일치했다. 이는 이러한 변화가 단순히 정답과 무승부 사이의 무해한 전환이 아니라, 객관적 진실에 대한 판사의 정렬(alignment)이 실제로 변했음을 나타낸다. 쌍체 유의성 검정 결과 모든 모델-언어 비교에서 대칭성이 기각되었다 ( $p \le 0.011$ ).

3.2 언어 선호도 vs. 불안정성

타이에서의 체계적 영어 편향 부재: 판사가 본질적으로 영어를 선호한다는 가설과 달리, 번역 등가 타이 프로브는 대다수의 경우 "Tie"로 판단되었다 (예: DeepSeek: 97.5%, GPT-4.1 Mini: 95.6%).
비-타이 상황에서의 중국어 선호: 판사가 "Tie"를 호출하지 않았을 때, 영어 버전보다 중국어 버전을 더 자주 선호했다. 이는 문제가 단순한 "영어 우선" 사전 확률이 아니라, 판사가 서로 다른 언어적 제시를 처리하는 방식에서의 불안정성임을 시사한다.

3.3 위치 편향과의 상호작 작용

언어 전환은 위치 민감성을 증폭시킨다: 위치 불일치(순서를 바꿨을 때 승자가 변경됨)는 언어 전환(LS) 조건에서 유의미하게 증가했다.
- 모델 전반에 걸쳐 평균 위치 불일치는 **12.1%(EN)**에서 **18.1%(LS)**로 상승했다.
- Gemini Flash는 10.3%(EN)에서 22.2%(LS)로 가장 큰 폭의 증가를 보였다.
적대적 난이도: 적대적 하위 집합(예: Adv-GPTOut)은 더 낮은 정확도와 더 높은 플립 비율을 보였으며, 이는 언어 변환이 이미 어려운 추론 작업에 또 다른 층위의 어려움을 더한다는 것을 시사한다.

4. 기여

Judge-LS 프로토콜: 모델 훈련 없이 LLM-as-a-Judge 평가의 언어 전환 불변성을 테스트하기 위한 간단하고 저비용인 프로토콜 도입.
포괄적 벤치마킹: 골드 라벨을 보존하면서 전체 419개 항목의 LLMBar 벤치마크를 영어, 중국어, 언어 전환 버전으로 변환.
대규모 평가: 13,408개의 판단(답변 순서 교체 및 번역 등가 타이 프로브 포함)에 대해 네 가지 다양한 API 판사를 평가.
진단 프레임워크: 플립 비율, 위치 불일치, 불확실성 추정 및 기계적 위험이 있는 변형을 제외한 민감도 분석을 포함한 다차원적 메트릭 보고.

5. 의의 및 주장

본 논문은 다국어 LLM 평가의 핵심 리스크가 반드시 판사가 "영어를 선호하는 것"이 아니라, 언어적 제시 방식에 민감하게 반응하여 정답성과 위치 편향에 영향을 미치는 것이라고 주장한다.

신뢰성 함의: 10~14%의 플립 비율은 시스템 간 점수 차이가 근소할 때 모델 순위를 바꿀 만큼 크다. 만약 리더보드가 중국어나 언어 전환 답변을 평가하기 위해 영어 판사 프롬프트를 사용한다면, 보고된 성능은 답변의 품질과 판사의 언어 민감도가 혼재된 결과일 수 있다.
설계 원칙: 평가 파이프라인은 테스트 대상인 시스템으로 취급되어야 한다. 견고한 판사는 강건한 분류기가 무관한 입력 섭동을 처리해야 하는 것과 마찬가지로, 라벨을 보존하는 표면적 변환 하에서도 핵심 선호도를 보존해야 한다.
실무 워크플로우: 저자들은 다국어 평가를 위한 5단계 워크플로우를 권장한다: (1) 순서 교체를 포함한 베이스라인 영어 평가, (2) 대상 언어로의 변환, (3) 감사 및 민감도 분석, (4) 신뢰 구간을 포함한 불변성 플립 계산, (5) 편향과 불안정성을 구분하기 위한 타이 프로브.

본 연구는 현재의 LLM 판사들이 언어적 제시 방식에 대해 아직 불변적이지 않으며, 다국어 모델 선택을 위해 단일 언어 조건에 의존하는 것은 취약한 관행이라고 결론짓는다.

Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge