MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "MultiwayPAM" in simpel, alledaags Nederlands, vol met creatieve vergelijkingen.

De Grote Uitdaging: Het Beoordelen van AI met AI

Stel je voor dat je een gigantische tentoonstelling hebt met duizenden schilderijen (antwoorden van AI). Je wilt weten welke schilderijen goed zijn. In plaats van dat je zelf urenlang naar elk schilderij kijkt, huur je een team van 50 kritische kunstkritici (andere AI's) in om elk schilderij te beoordelen.

Dit is wat "LLM-as-a-Judge" doet: we gebruiken slimme AI's om andere AI's te beoordelen. Maar hier zitten twee grote haken en ogen:

Het is duur en traag: Als je 50 vragen hebt, 50 verschillende AI's die antwoorden en 50 kritische AI's die beoordelen, moet je $50 \times 50 \times 50 = 125.000$ keer een AI laten rekenen. Dat kost veel geld en tijd.
De critici zijn niet objectief: Net als mensen hebben AI's hun eigen vooroordelen. Een AI die zelf een "vintage platenwinkelhouder" is, vindt misschien antwoorden van een "platenwinkelhouder" mooier dan die van een "chirurg". Dit heet bias.

Het Oplossingsidee: De "MultiwayPAM" Methode

De auteurs van dit paper (van NTT Labs) hebben een slimme nieuwe manier bedacht om deze chaos te ordenen. Ze noemen het MultiwayPAM.

Om dit uit te leggen, gebruiken we een vergelijking met een groot, 3D-puzzel of een gigantische supermarkt.

1. De Supermarkt (De Data)

Stel je een supermarkt voor met drie gangpaden:

Gangpad 1: De vragen (de klanten).
Gangpad 2: De antwoorden (de producten).
Gangpad 3: De beoordelaars (de winkelpersoneel).

Elke combinatie (Klant + Product + Personeel) heeft een prijskaartje (een score). De supermarkt is zo groot dat niemand alle prijzen kan zien.

2. Het Probleem: Te veel ruis

Als je door de supermarkt loopt, zie je een wirwar van prijzen. Soms is een product duur omdat het slecht is, soms omdat de verkoper het niet mag, en soms omdat de klant een rare smaak heeft. Je wilt weten: Welke groepen klanten, producten en verkopers lijken op elkaar?

3. De Oplossing: De "Vertegenwoordigers" (Medoids)

Hier komt MultiwayPAM om de hoek kijken. In plaats van elke individuele klant en verkoper apart te analyseren, zoekt de methode naar vertegenwoordigers (in het paper "medoids" genoemd).

Stel je voor: Je deelt de supermarkt in in 5 zones. In elke zone kies je één klant, één product en één verkoper als "hoofd" van die groep.
Deze hoofdpersonen zijn niet zomaar willekeurig gekozen; ze zijn de meest typische vertegenwoordigers van hun groep.
Als je weet hoe deze hoofdpersonen reageren, weet je eigenlijk al hoe de hele groep reageert.

Waarom is dit slim?

Sparen: Je hoeft niet meer 125.000 keer te rekenen. Je kijkt alleen naar de interacties tussen de hoofdpersonen. Als je weet dat "De Vrolijke Verkoper" (hoofd van groep 3) "De Grappige Vraag" (hoofd van groep 1) leuk vindt, weet je dat de hele groep dat ook doet.
Begrijpen: Je ziet nu duidelijk de patronen. Bijvoorbeeld: "Oh, alle verkopers die 'nurses' zijn, vinden antwoorden van 'soldaten' saai." Dat is een inzicht in de vooroordelen van de AI's.

Hoe werkt het technisch (in simpele taal)?

De methode werkt als een spelletje "Vinden en Vervangen":

Starten (BUILD): De computer kiest willekeurig een paar hoofdpersonen (vertegenwoordigers) voor elke groep.
Verbeteren (SWAP): De computer probeert dan: "Wat als we deze hoofdpersoon vervangen door iemand anders uit de groep? Wordt de groep dan beter beschreven?"
Herhalen: Dit doet hij keer op keer, totdat hij niet meer kan verbeteren. Dan heeft hij de beste mogelijke groepen en de beste hoofdpersonen gevonden.

Wat leerden ze hieruit?

Toen ze dit toepasten op echte data (met vragen over medische zaken, wiskunde en algemene kennis), zagen ze interessante dingen:

Specifieke vooroordelen: Ze ontdekten dat bepaalde AI-beoordelaars (bijvoorbeeld een AI die zich voorstelt als een "verpleegster") heel streng waren voor vragen over militaire carrières, maar juist heel vriendelijk voor vragen over water drinken.
Vraag-typen: Sommige vragen (zoals "Is dit een logische conclusie?") kregen overal lage scores, terwijl andere vragen (over simpele feiten) overal hoge scores kregen.
Efficiëntie: De methode gaf bijna even goede resultaten als het beoordelen van alles, maar dan met veel minder rekenkracht.

Samenvattend

MultiwayPAM is als een slimme manager die in een enorme, rommelige supermarkt komt. In plaats van elke schap te tellen, groepeert hij de producten in 5 categorieën en kiest voor elke categorie één "perfect voorbeeld". Door alleen naar die voorbeelden te kijken, begrijpt hij de hele winkel, bespaart hij tijd en ziet hij precies welke verkopers welke producten niet kunnen uitstaan.

Dit helpt onderzoekers om AI-systemen sneller en eerlijker te testen, zonder dat ze failliet gaan door de rekenkosten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis" in het Nederlands.

Probleemstelling

Het gebruik van "LLM-as-a-Judge" (het gebruik van grote taalmodellen om teksten te evalueren) is een flexibel raamwerk voor tekstbeoordeling. Echter, de toepassing ervan wordt geconfronteerd met twee fundamentele uitdagingen:

Rekenkosten: Het evalueren van een groot aantal teksten vereist een enorme hoeveelheid inferentie-beraken. Voor een dataset met $d_1$ vragen, $d_2$ antwoorden (van verschillende "persona's") en $d_3$ beoordelaars, zijn $d_1 \times d_2 \times d_3$ generatiestappen nodig.
Bias en Interpretatie: LLM-beoordelaars vertonen diverse vormen van bias (bijvoorbeeld zelfversterking, waarbij een LLM antwoorden van zichzelf beter beoordeelt). Het is cruciaal om de structuur van deze bias te onthullen om te begrijpen welke combinaties van vragen, antwoorden en beoordelaars tot vertekende scores leiden. Bestaande tensor-clusteringmethoden kunnen wel clusters identificeren, maar zijn moeilijk te interpreteren omdat ze geen representatieve voorbeelden (centroïden of medoïden) leveren die de inhoud van een cluster verduidelijken.

Methodologie: MultiwayPAM

De auteurs stellen MultiwayPAM voor, een nieuwe tensor-clusteringmethode die is afgeleid van het bekende Partitioning Around Medoids (PAM) algoritme voor vectordata, maar is uitgebreid naar multi-way data (tensors).

Het doel is om de latente blokkstructuur van een score-tensor $Y$ (waarbij de dimensies vragen, antwoorden en beoordelaars vertegenwoordigen) te schatten, inclusief de medoïden (representatieve indices) voor elke modus.

Het algoritme bestaat uit twee fasen:

BUILD-algoritme (Initialisatie):
- Dit is een greedige benadering om de initiële lijst van medoïden en lidmaatschappen te initialiseren.
- Voor elke modus (bijv. vragen) worden medoïden geselecteerd die de som van de dissimilariteit (bijv. Euclidische afstand) tussen slices van de tensor minimaliseren.
- Het proces selecteert iteratief de index die de grootste afstand tot de reeds geselecteerde medoïden minimaliseert, totdat het gewenste aantal clusters ( $c_k$ ) is bereikt.
- Vervolgens worden alle indices toegewezen aan de dichtstbijzijnde medoïd.
SWAP-algoritme (Iteratieve Optimalisatie):
- Dit algoritme probeert de huidige oplossing te verbeteren door het uitwisselen van een bestaande medoïd met een niet-medoïd index binnen dezelfde modus.
- Voor elke modus worden alle mogelijke paren $(i, j)$ (waarbij $i$ een medoïd is en $j$ een niet-medoïd) getest.
- Voor elk paar wordt een tijdelijke nieuwe medoïd-lijst en lidmaatschapslijst gegenereerd en wordt de totale dissimilariteit $D$ tussen de oorspronkelijke tensor en de gereconstrueerde "medoïd-tensor" berekend.
- Als een uitwisseling de totale fout verlaagt, wordt deze geaccepteerd. Het proces herhaalt zich totdat geen enkele uitwisseling meer leidt tot een verbetering (lokaal optimum).

Dissimilariteitsmaat: De methode gebruikt de kwadratische Frobenius-norm ( $\|X - Y\|_2^2$ ) om de afstand tussen de originele tensor en de gereconstrueerde tensor te meten.

Belangrijkste Bijdragen

MultiwayPAM Algoritme: De ontwikkeling van een nieuwe tensor-clusteringmethode die simultaan cluster-lidmaatschappen en medoïden schat voor elke modus van een tensor. Dit lost het interpretatieprobleem op van bestaande methoden.
Interpreteerbaarheid: Door de medoïden te observeren (bijv. de specifieke vraag of persona die als vertegenwoordiger dient voor een cluster), krijgen onderzoekers direct inzicht in de semantische samenstelling van de clusters en de aard van de bias.
Toepassing op LLM-as-a-Judge: Het toepassen van deze methode op score-tensors om de interactie tussen vragen, antwoorden en beoordelaars te analyseren, in plaats van alleen de scores te aggregeren.

Resultaten

De auteurs hebben MultiwayPAM getest op twee datasets: Truthy-DPO-v0.1 en Emerton-DPO-Pairs-Judge.

Setup: Voor beide datasets werden 50 vragen, 50 antwoorden (persona's) en 50 beoordelaars geselecteerd. De clustergrootte werd ingesteld op $c = [5, 5, 5]$ .
Analyse:
- De visualisatie van de gesorteerde blokken toonde duidelijke patronen. Bijvoorbeeld, in de Truthy-dataset gaf een specifieke beoordelaar (E14: een verpleegster die bezorgd is over militaire carrières) lagere scores aan vragen over fysieke navigatie (Q6), terwijl een andere beoordelaar (E22: een voetbalfan) hoge scores gaf aan feitelijke vragen (Q11).
- In de Emerton-dataset bleek dat de variatie in scores voornamelijk werd gedreven door het type vraag (bijv. logische redenering vs. vertaling).
Vergelijking met TBM (Tensor Block Model):
- MultiwayPAM presteerde beter dan de bestaande TBM-methode in termen van RMSE-M (Root Mean Squared Error tussen de originele tensor en de medoïd-tensor), met een lagere fout (0.714 vs 0.783 voor Truthy).
- De prestatie was iets minder goed in termen van RMSE-C (fout ten opzichte van de centroïde-tensor), wat aangeeft dat het gebruik van een enkel representatief voorbeeld (medoïd) iets minder nauwkeurig is dan het gemiddelde van de cluster, maar wel veel beter interpreteerbaar.

Betekenis en Toekomstperspectief

Efficiëntie en Bias-ontdekking: MultiwayPAM biedt een manier om de complexe structuur van LLM-evaluaties te doorgronden zonder alle mogelijke combinaties te hoeven genereren. Het helpt bij het identificeren van specifieke scenario's waar LLM's systematisch vertekend oordelen.
Interpretatie: De focus op medoïden maakt het mogelijk voor onderzoekers om concrete voorbeelden te zien van waarom een cluster een bepaalde scorepatroon vertoont, wat essentieel is voor het verbeteren van prompts en evaluatiestandaarden.
Beperkingen en Toekomst: De huidige methode vereist dat het aantal clusters vooraf bekend is. Toekomstig werk richt zich op het automatisch bepalen van het optimale aantal clusters. Daarnaast wordt er gewerkt aan het integreren van semantische gelijkenis in de keuze van medoïden, zodat de geselecteerde voorbeelden niet alleen numeriek representatief zijn, maar ook semantisch dicht bij de andere leden van de cluster staan.

Kortom, MultiwayPAM is een krachtig instrument voor het analyseren van de complexiteit en bias in LLM-gestuurde evaluatiesystemen door middel van geavanceerde tensor-clustering met interpreteerbare resultaten.