Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, multinationale rechter hebt die oordelen moet vellen over teksten in honderden verschillende talen. Deze "rechter" is een Large Language Model (LLM). Het probleem is dat deze rechter een geheim vooroordeel heeft: hij houdt er van om teksten te beoordelen die door een machine zijn vertaald, zelfs als die vertalingen niet perfect zijn. Hij negeert vaak de prachtige, door mensen geschreven teksten.

In de wetenschap noemen ze dit "translationese bias" (vertaal-vooringenomenheid). En het ergste is: dit gebeurt vooral bij talen waar minder over te vinden is (zoals Swahili of Japans), terwijl het bij Engels minder erg is.

De auteurs van dit paper hebben een oplossing bedacht, genaamd DIBJUDGE. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vertaal-Geur"

Stel je voor dat je een kok bent die gerechten moet beoordelen. Je hebt twee borden:

Bord A: Een gerecht gemaakt door een meesterkok (de mens).
Bord B: Een gerecht dat door een robot is nagebootst (de machinevertaling).

De robot-vertaling heeft een specifieke "geur" of "stijl" die heel dicht bij de originele Engelse versie ligt. De huidige AI-rechter ruikt die geur en denkt: "Aha! Dit klinkt als het origineel, dit moet goed zijn!" Hij negeert dan de echte meesterkok, zelfs als het gerecht op Bord A lekkerder smaakt.

De onderzoekers ontdekten twee redenen waarom de AI dit doet:

De "Engelse Kompas-naald": De AI is getraind op veel Engels. Als een tekst in een andere taal klinkt alsof hij rechtstreeks uit het Engels komt, denkt de AI dat het beter is.
De "Voorspelbaarheids-truc": Machinevertalingen zijn vaak statistisch voorspelbaarder voor de AI. De AI denkt: "Dit is makkelijk te voorspellen, dus het moet waarheid zijn."

2. De Oplossing: DIBJUDGE (De "Scheidings-Rechter")

Om dit op te lossen, hebben de onderzoekers een nieuw systeem gebouwd dat werkt als een slimme scheidingsmachine.

Stel je voor dat je een glas water hebt met modder (de tekst) en een stukje plastic (de vertaal-geur). Je wilt het water drinken, maar je wilt de modder en het plastic niet.

DIBJUDGE doet twee dingen tegelijk:

De "Robuuste" Kan (De Rechter): Deze kan vangt alleen de echte smaak van het gerecht (de betekenis). Hij probeert de "modder" (de vertaal-geur) eruit te filteren.
De "Vangbak" (De Bias): Dit is een speciale bak die alleen de modder en het plastic opvangt. De AI leert specifiek om die "vertaal-geur" hierin te stoppen, zodat het de echte rechter niet meer kan verstoren.

3. Hoe leren ze dit? (Het "Info-Bottleneck")

Normaal gesproken leert een AI alles wat hij ziet. Maar hier gebruiken ze een truc die ze een "Informatie-flesnek" noemen.

Stel je voor dat je een flesje hebt met een heel smalle hals. Je wilt er water (belangrijke informatie) doorheen laten, maar je wilt dat de modder (de vooringenomenheid) er niet door past.

De AI wordt gedwongen om alleen de essentiële informatie door die smalle hals te duwen.
Tegelijkertijd wordt er een tweede flesje naast gezet dat alleen de modder moet vangen.
Ze zorgen ervoor dat deze twee flesjes nooit met elkaar praten. Als de modder in het modder-flesje zit, mag die niet in het water-flesje komen.

4. Het Resultaat

Na het trainen met deze methode:

De AI-rechter kijkt niet meer naar de "vertaal-geur".
Hij beoordeelt nu eerlijk: "Is dit een goed antwoord, ongeacht of het door een mens of een robot is geschreven?"
Dit werkt zelfs heel goed voor talen waar de AI normaal gesproken niet goed in is (zoals Yoruba of Pashto).

Samenvattend

De onderzoekers hebben een manier gevonden om de "bril" van de AI te vervangen. In plaats van door een bril te kijken die alles rood kleurt als het op Engels lijkt (de vertaal-geur), kijken ze nu door een bril die alleen de inhoud ziet.

Ze hebben de AI niet alleen slimmer gemaakt, maar vooral eerlijker, zodat talen die minder vaak worden gebruikt niet meer worden benadeeld door de voorkeur voor machinevertalingen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck", geschreven in het Nederlands.

1. Het Probleem: Translationese Bias

Hoewel Large Language Models (LLMs) de standaard zijn geworden voor het evalueren van meertalige teksten ("LLM-as-a-Judge"), vertonen ze een ernstig systematisch biasprobleem genaamd translationese bias.

Definitie: LLM-judges geven systematisch de voorkeur aan machine-vertaalde teksten boven menselijk geschreven referentieteksten, zelfs wanneer de machine-vertaling semantisch inferieur is.
Impact: Deze bias is het meest uitgesproken in low-resource talen (zoals Pashto, Malagasy, Yoruba), wat de betrouwbaarheid van evaluaties voor deze talen ondermijnt.
Oorzaak: De auteurs identificeren twee "spurious correlations" (schijnbare correlaties) die deze bias veroorzaken:
1. Latente manifold-uitlijning met het Engels: Non-Engelse representaties zijn tijdens het pre-training vaak impliciet uitgelijnd met een Engelstalige latente ruimte. Judges favoriseren teksten die dichter bij deze Engelse structuur liggen.
2. Kruis-taal voorspelbaarheid: Judges vertrouwen te sterk op statistische patronen (zoals hoge waarschijnlijkheid/laag perplexity) die kenmerkend zijn voor machine-vertalingen, vaak versterkt door synthetische trainingsdata.

2. Methodologie: DIBJUDGE

Om dit probleem op te lossen, stellen de auteurs DIBJUDGE (Disentangled Information Bottleneck Judge) voor. Dit is een robuust fine-tuning framework dat gebaseerd is op het principe van het Disentangled Information Bottleneck (DIB).

Kernarchitectuur en Doelstelling:
In plaats van één enkele representatie te leren, deconstrueert DIBJUDGE de input $X$ in twee gescheiden componenten:

Robuuste Representatie ( $Z_r$ ): Bevat alleen de essentiële, semantische informatie die nodig is voor een accurate kwaliteitsevaluatie (de "task-critical" informatie).
Bias Representatie ( $Z_b$ ): Fungeert als een specifieke "sink" die de spurious factoren (translationese artefacten) opvangt en isoleert.

De Loss Functie:
Het model wordt getraind om de volgende geoptimaliseerde doelstelling te minimaliseren (Equation 3 in het paper):
$L_{DIB} = \underbrace{-I(Y; Z_r)}_{\text{Predictie}} + \beta \underbrace{I(X; Z_r)}_{\text{Compressie}} - \gamma \underbrace{I(S; Z_b)}_{\text{Bias Opsporing}} + \lambda \underbrace{I(Z_r; Z_b)}_{\text{Disentanglement}}$

Compressie: Via variational inference wordt $I(X; Z_r)$ geminimaliseerd (KL-divergentie met een prior), zodat $Z_r$ zo compact mogelijk is en alleen nuttige informatie behoudt.
Bias Opsporing: $I(S; Z_b)$ $I (S; Z_{b})$ wordt gemaximaliseerd, waarbij $S$ $S$ de spurious factoren zijn. Dit wordt gedaan via twee proxy-tasks:
- Cross-lingual Alignment Contrastive Learning: Om de uitlijning met de Engelse manifold te detecteren.
- Log-Probability Bin Classification: Om de kruis-taal voorspelbaarheid (predictive confidence) te detecteren.
Disentanglement: Om te voorkomen dat de twee vertakkingen informatie delen, wordt een cross-covariance penalty ( $L_{disc}$ ) toegepast. Dit straft statistische afhankelijkheid tussen $Z_r$ en $Z_b$ af, wat effectiever en rekenkundig efficiënter is dan het direct schatten van wederzijdse informatie.

3. Belangrijkste Bijdragen

Systematische Karakterisering: Het paper biedt de eerste uitgebreide analyse van translationese bias in meertalige LLM-judges, met bewijs dat deze bias omgekeerd evenredig is met de beschikbaarheid van taalbronnen.
DIBJUDGE Framework: Een nieuwe fine-tuning methode die expliciet semantische inhoud scheidt van vertaalartefacten door middel van een ontkoppelde informatie-flesnek.
Proxy Tasks: De introductie van meetbare latent-metrics (Language Alignment Score en Cross-lingual Sequence Surprisal) en de bijbehorende proxy-tasks om bias actief te isoleren tijdens het trainen.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat de methode niet alleen de bias vermindert, maar ook de algemene prestaties verbetert.

4. Resultaten

De auteurs hebben DIBJUDGE getest op diverse benchmarks, waaronder M-RewardBench, MM-Eval en een specifieke suite voor translationese bias (gebaseerd op BELEBELE, AYA, XL-SUM).

Prestatieverbetering: DIBJUDGE (gebaseerd op Qwen3-8B) bereikte een nieuwe state-of-the-art (SOTA) onder open-weight modellen. Het scoorde 91.37% op M-RewardBench (23 talen), wat significant hoger is dan concurrenten zoals GPT-4o (85.75%) en andere open-source reward models.
Bias Vermindering:
- De bias-severity ( $S_{bias}$ ) werd drastisch verlaagd, met name in low-resource talen (gemiddelde reductie van 80% op BELEBELE en 75% op XL-Sum).
- In tegenstelling tot standaard SFT (Supervised Fine-Tuning) die bias in low-resource settings behoudt, elimineert DIBJUDGE deze effectief.
Generalisatie: Het model toont robustheid tegen ongezien bias-types (zoals lengte-bias en self-preference bias), wat aantoont dat het model leert om oppervlakkige heuristieken te filteren in plaats van specifieke artefacten te memoriseren.
Pareto-Optimaliteit: Het model bereikt een betere afweging tussen bias-reductie en nut (accuracy) dan bestaande methoden, wat betekent dat het de bias vermindert zonder de prestaties op te offeren.

5. Betekenis en Impact

Dit onderzoek is van groot belang voor de ontwikkeling van eerlijke en betrouwbare meertalige AI-systemen:

Fairness: Het lost een kritiek probleem op waarbij low-resource talen systematisch worden benadeeld door evaluatiemodellen die voorkeur geven aan vertaalde content.
Robuustheid: Het biedt een theoretisch onderbouwde oplossing (Disentangled IB) die verder gaat dan standaard fine-tuning, waardoor LLM-judges minder vatbaar zijn voor "shortcut learning" (het gebruiken van trucs in plaats van echte semantische analyse).
Toekomstige Richting: De methode kan worden toegepast op andere vormen van bias in LLM's en vormt een blauwdruk voor het bouwen van eerlijker evaluatie-infrastructuur in een meertalige wereld.

Kortom, DIBJUDGE bewijst dat het expliciet ontwarren van bias-factoren van semantische inhoud leidt tot superieure, eerlijkere en robuustere beoordelaars voor meertalige content.

Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

1. Het Probleem: De "Vertaal-Geur"

2. De Oplossing: DIBJUDGE (De "Scheidings-Rechter")

3. Hoe leren ze dit? (Het "Info-Bottleneck")

4. Het Resultaat

Samenvattend

1. Het Probleem: Translationese Bias

2. Methodologie: DIBJUDGE

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models