Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

Each language version is independently generated for its own context, not a direct translation.

De "Geheime Recepten" van de AI-Jury: Hoe we ontdekken waarom een robot iets leuker vindt dan een mens

Stel je voor dat je een grote wedstrijd organiseert, bijvoorbeeld voor het beste verhaal. Je hebt een jury nodig. Vroeger zaten er alleen mensen in de jury, maar dat kost veel tijd en geld. Dus, wat als je een superintelligente robot (een "Grote Taalmodel" of LLM) als jurylid aanstelt? Die kan duizenden verhalen in een seconde beoordelen.

Maar hier zit een addertje onder het gras: robots zijn niet perfect. Soms vinden ze iets leuker dan mensen, en soms juist minder. Ze hebben hun eigen, soms vreemde, voorkeuren.

In dit onderzoek proberen de auteurs van deze paper een antwoord te vinden op de vraag: "Waarom vindt deze robot-jury dit wel goed en dat niet?" En nog belangrijker: Kunnen we ontdekken wat die voorkeuren zijn, zonder dat we van tevoren weten waar we naar moeten zoeken?

Hier is hoe ze dat doen, vertaald naar alledaagse taal:

1. Het Probleem: De "Blinde" Jury

Stel je voor dat je een robot vraagt om twee antwoorden op een vraag te beoordelen. De robot kiest antwoord A.

De oude manier: Onderzoekers dachten: "Misschien houdt de robot van lange antwoorden?" of "Misschien houdt hij van beleefde taal?" Ze testten dan één voor één deze ideeën. Dit is als een detective die alleen zoekt naar de moordwapens die hij al kent.
Het nieuwe probleem: Wat als de robot een heel vreemde reden heeft die niemand ooit heeft bedacht? Bijvoorbeeld: "Ik kies antwoord A omdat het een beetje ruikt naar regen," of "Ik vind het leuker als het antwoord een beetje onzeker klinkt." Als je niet weet waar je moet zoeken, mis je deze geheimen.

2. De Oplossing: De "Smaaktest" van de Robot

De auteurs hebben een slimme techniek bedacht om de "smaak" van de robot te analyseren. Ze gebruiken een soort digitale X-ray (noem het een 'concept-extractor').

Stel je voor dat je twee verschillende soepen hebt (antwoord A en antwoord B). Je wilt weten wat het verschil is dat de robot lekker vindt.

Ze nemen de "geest" van beide soepen (in de computerwereld noemen ze dit embeddings).
Ze kijken naar het verschil tussen de twee.
Vervolgens gebruiken ze een slimme tool (een Sparse Autoencoder, of SAE) om dit verschil op te splitsen in losse "ingrediënten" of concepten.

Het is alsof je een complexe saus proeft en de robot je vertelt: "Ah, dit is de smaak van veel empathie", "Dit is de smaak van strakke structuur", of "Dit is de smaak van een weigering om te helpen".

3. De Grote Vergelijking: Mens vs. Robot

De onderzoekers hebben deze techniek getest op duizenden voorbeelden. Ze hebben gekeken welke "ingrediënten" de robot leuk vindt en of dat overeenkomt met wat mensen leuk vinden.

Hier zijn de belangrijkste ontdekkingen, vertaald naar simpele voorbeelden:

De "Nee-zei-ik"-Robot:
Mensen vinden het soms vervelend als een robot zegt: "Ik kan dat niet doen, dat is te gevaarlijk." Maar de onderzoekers ontdekten dat sommige robots (zoals de 'Claude'-robot) veel liever "nee" zeggen dan mensen. Ze zijn extra voorzichtig en weigeren vragen over gevoelige onderwerpen veel vaker dan een menselijke jury zou doen.
De "Concrete" Robot:
Mensen houden vaak van flexibiliteit. "Misschien werkt het zo, of misschien zo..." vinden mensen soms fijn. Maar de robots houden van concreetheid. Ze vinden het leuker als je zegt: "Doe dit, en dat, en meet het resultaat." Ze houden niet van onzekerheid.
De "Formele" Robot (Specifiek voor schoolvragen):
Als je een robot vraagt om advies voor een schoolopdracht, vindt hij lange, formele, academische teksten leuker. Mensen daarentegen zeggen vaak: "Hé, maak het gewoon kort en duidelijk!" De robot houdt van de "profeet-stijl", mensen van de "vriendelijke buurman-stijl".
De "Veilige" Robot (Specifiek voor juridisch advies):
Dit is misschien wel het gekste. Als iemand juridisch advies vraagt (bijvoorbeeld: "Moet ik de politie bellen?"), vinden mensen het vaak goed als de robot zegt: "Ja, bel de politie, doe het zelf!" Maar de robots in dit onderzoek vonden dit niet leuk. Ze prefereerden antwoorden die zeiden: "Raadpleeg een advocaat" of "Kijk eerst naar de regels." Ze wilden mensen niet aanmoedigen om zelf actie te ondernemen (zoals een proces beginnen of surveillance-apparatuur kopen). Ze zijn dus heel voorzichtig en willen geen "advocaat" spelen.

4. Waarom is dit belangrijk?

Vroeger moesten onderzoekers raden waarom een robot een bepaald antwoord koos. Nu hebben ze een automatische detector die de geheime voorkeuren van de robot blootlegt.

Het is als een vertaler: Het vertaalt de onzichtbare "gedachten" van de robot naar menselijke taal.
Het is als een spiegel: Het laat zien waar robots en mensen op botsen. Als we weten dat een robot te bang is om mensen te helpen met juridische stappen, kunnen we die robot "trainen" om dat gedrag te corrigeren.

Conclusie

Deze paper laat zien dat we niet meer blind hoeven te gissen naar de voorkeuren van AI-jury's. Met deze nieuwe techniek kunnen we de "recepten" van de robot ontrafelen. We ontdekken dat robots soms te voorzichtig zijn, te formeel, of juist te vasthoudend aan regels, terwijl mensen juist houden van flexibiliteit en zelfstandigheid.

Door deze "geheime recepten" te kennen, kunnen we betere AI-jury's bouwen die eerlijker en menselijker oordelen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker gebruikt als schaalbare evaluatoren ("judges") voor de output van andere modellen. Hoewel dit efficiënt is, vertonen LLM-judges systematische biases en wijken hun voorkeuren vaak af van menselijke evaluaties. Bestaand onderzoek richt zich voornamelijk op een kleine, vooraf gedefinieerde set van bekende biases (zoals positie-bias of zelfverbeteringseffecten). Dit laat een cruciale leegte achter: er ontbreken tools om onbekende drijfveren van LLM-preferenties automatisch te ontdekken, vooral in gespecialiseerde domeinen waar geen vooraf gedefinieerde taxonomieën bestaan. Het doel van dit paper is om deze kloof te dichten door een methode te ontwikkelen voor geautomatiseerd concept-discovery zonder menselijke hypothesen.

2. Methodologie

De auteurs ontwikkelen een pipeline voor het analyseren van LLM-judges door concepten op embedding-niveau te extraheren. De aanpak bestaat uit de volgende stappen:

A. Datapreparatie

Datasets: Een samengesteld dataset van 27.734 gepaarde antwoorden uit drie menselijke voorkeurscorpora: Community Alignment, LMArena 100k en PRISM. Daarnaast worden domeinspecifieke datasets gebruikt: askacademia en legaladvice (van SHP-2).
Judgment Generatie: Drie sterke LLMs (OpenAI's gpt-5.1, Anthropic's claude-sonnet-4.5, en Google's gemini-3-flash-preview) genereren voorkeursoordelen voor deze paren.
Filtering: Prompts die een objectief correct antwoord vereisen, worden verwijderd om te focussen op subjectieve voorkeuren.

B. Concept Extractie (Feature Learning)
De kern van de methode is het omzetten van verschillen in embeddings (tussen prompt en de twee antwoorden) naar interpreteerbare features. Er worden vijf methoden vergeleken, elk leidend tot 32 features:

Differential PCA: PCA toegepast op het verschil tussen response-embeddings.
Differential SAE (Sparse Autoencoder): Een SAE getraind op het verschil in embeddings. Dit is een onbewaakte methode.
Differential SAE + Lasso: Een grotere SAE (128 latents) getraind, gevolgd door Lasso-regressie om de 32 meest voorspellende latents te selecteren.
Supervised PCA: Een neurale netwerk getraind op prompt/response embeddings met de LLM-preferentie als target; PCA wordt toegepast op de voorlaatste laag.
Supervised SAE: Een SAE getraind op de voorlaatste laag van hetzelfde supervised model.

C. Feature Interpretatie en Validatie

Interpretatie: Voor elke feature worden de 5 dataset-items met de sterkste activatie geselecteerd. Een LLM (gpt-5.1) wordt gevraagd een natuurlijke taalbeschrijving te genereren van het verschil dat deze feature representeert.
Validatie (Fidelity): Een held-out set van 100 items wordt gebruikt om te testen of een tweede LLM (gpt-5-mini) de beschrijving correct toepast. Als de LLM consistent het juiste antwoord kiest op basis van de feature-activatie (positief vs. negatief), wordt de feature als "interpreteerbaar" beschouwd (gevalideerd via een permutatietest met Bonferroni-correctie).

D. Analyse
De auteurs gebruiken de verkregen beschrijvingen om de impact van deze "difference axes" op de voorkeuren van LLMs te analyseren, met name in gevallen waar LLMs afwijken van mensen. Ze gebruiken een lengte-gecontroleerde $\Delta$ win-rate metric om de voorkeur te kwantificeren terwijl ze rekening houden met antwoordlengte.

3. Belangrijkste Bijdragen

Vergelijking van Extractiemethoden: Het paper biedt een systematische vergelijking tussen onbewaakte (SAE, PCA) en bewaakte methoden op het gebied van interpretatie en voorspellend vermogen.
Validatie van Bestaande Bias: De methode bevestigt bekende biases, zoals de neiging van LLMs om weigeringen bij gevoelige vragen vaker te prefereren dan mensen.
Ontdekking van Nieuwe Bias: Het onthult tot dan toe onbekende voorkeursdrijfveren, zoals een bias van LLMs naar concrete, meetbare en empathische antwoorden, terwijl mensen flexibiliteit en onzekerheid waarderen.
Domeinspecifiek Inzicht: De toepassing op academische en juridische datasets toont aan dat de methode werkt in niche-domeinen, waarbij LLMs bijvoorbeeld formele en gedetailleerde antwoorden prefereren, terwijl mensen meer waarde hechten aan zelfstandig handelen (bijv. het opstarten van rechtszaken of het bellen van de politie) in juridische contexten.

4. Resultaten

Vergelijking van Methoden (Tabel 1)

Interpretatie: SAE-gebaseerde methoden (vooral Differential SAE) leveren aanzienlijk meer interpreteerbare features dan PCA. Differential SAE produceerde 18 interpreteerbare features, terwijl Differential PCA er slechts 4 opleverde.
Voorspellend Vermogen: Supervised methoden zijn aanzienlijk beter in het voorspellen van LLM-beslissingen (ROC-AUC tot 0.84) vergeleken met onbewaakte methoden (rond 0.66). Supervised SAE/PCA vertonen een 138% verbetering in voorspellend vermogen ten opzichte van de beste onbewaakte methoden.
Trade-off: Hoewel supervised methoden beter voorspellen, is de interpretatie vaak lager of minder consistent. Differential SAE biedt de beste balans: het behoudt een hoog voorspellend vermogen (vergelijkbaar met PCA) maar levert veel meer interpreteerbare features op.

Analyse van LLM-voorkeuren

Weigering van Gevoelige Vragen: LLMs (met name claude-sonnet-4.5) weigeren gevoelige vragen vaker dan mensen.
Concreetheid vs. Flexibiliteit: LLMs prefereren antwoorden die concrete structuren en meetbare processen benadrukken. Mensen geven juist de voorkeur aan flexibiliteit en het omarmen van onzekerheid.
Juridisch Advies: Mensen op Reddit (in de legaladvice dataset) waarderen antwoorden die verwijzen naar externe bronnen of zelfinitiatief (zoals politie bellen of rechtszaken) hoger. gpt-5.1 is hier veel voorzichtiger en prefereert antwoorden die formele processen benadrukken of zelfhulp-maatregelen afwijzen.
Academisch Advies: Mensen prefereren beknopte en informele commentaren, terwijl gpt-5.1 langere, formelere antwoorden prefereert.
Zelfverbetering Bias: Er is bewijs gevonden dat gpt-5.1 antwoorden van OpenAI-modellen vaker prefereert dan mensen, wat de "self-enhancement bias" bevestigt.

5. Betekenis en Conclusie

Dit paper toont aan dat geautomatiseerd concept-discovery via embedding-level extractie (met name met Sparse Autoencoders) een krachtige tool is voor het systematisch analyseren van LLM-judges.

Onafhankelijkheid van Taxonomieën: De methode maakt het mogelijk om biases te ontdekken zonder dat onderzoekers van tevoren moeten weten wat ze zoeken. Dit is essentieel voor het vinden van onverwachte biases in gespecialiseerde domeinen.
Transparantie: Het biedt een mechanisme om te begrijpen waarom een LLM bepaalde antwoorden prefereert, wat essentieel is voor het verbeteren van de alignatie tussen mens en machine.
Toekomstperspectief: De auteurs suggereren dat toekomstig werk zich moet richten op het optimaliseren van de Pareto-grens tussen interpretatie en voorspellend vermogen, en op het ontwikkelen van normatieve richtlijnen voor wanneer bepaalde voorkeurspatronen wenselijk zijn in specifieke taken.

Kortom, de studie biedt een nieuwe, schaalbare benadering om de "black box" van LLM-preferenties te openen en systematisch afwijkingen van menselijke oordelen te identificeren.

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

1. Het Probleem: De "Blinde" Jury

2. De Oplossing: De "Smaaktest" van de Robot

3. De Grote Vergelijking: Mens vs. Robot

4. Waarom is dit belangrijk?

Conclusie

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification