What Is Missing: Interpretable Ratings for Large Language Model Outputs

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoekspaper "What Is Missing" (WIM) in eenvoudig Nederlands, met behulp van creatieve vergelijkingen.

Het Probleem: De Vage "10"

Stel je voor dat je een kok bent die een nieuwe maaltijd voor een jury hebt gemaakt. De juryleden moeten de maaltijd beoordelen.

De oude manier: Ze geven een cijfer van 1 tot 10.
- Het probleem: Als twee juryleden een 8 geven, weten we niet waarom. Is het een 8 omdat de saus te zout was? Of omdat er te weinig groenten in zaten? Een 8 is vaag. Als iedereen een 8 geeft, kan de kok niet leren wat hij moet verbeteren. Het is alsof je probeert een auto te repareren met alleen de mededeling: "De auto loopt niet goed."

De Oplossing: "Wat Ontbreekt?" (WIM)

De auteurs van dit paper, Nicholas Stranges en Yimin Yang, hebben een nieuw systeem bedacht genaamd WIM (What Is Missing / Wat Ontbreekt).

In plaats van een cijfer te geven, moet de jury (of een andere computer) nu een korte zin schrijven over wat er precies ontbreekt in het antwoord.

Voorbeeld:
- Oude manier: Cijfer 6.
- Nieuwe manier (WIM): "Je bent vergeten te vermelden dat de slang giftig is en dat de huidgeur een bescherming is."

Hoe werkt het technisch? (De Magische Spiegel)

Hoe zet je die tekst om in een cijfer voor de computer?

De computer neemt het originele antwoord.
De computer neemt de tekst over wat er ontbreekt.
De computer gebruikt een slimme "vertaaltechniek" (zogenoemde embeddings) om te kijken hoe ver die twee teksten van elkaar afstaan in een denkbeeldige ruimte.

De Analogie:
Stel je voor dat het originele antwoord een foto is.

Als het antwoord perfect is, is de tekst over "wat ontbreekt" leeg. De foto en de lege tekst lijken op elkaar (ze zijn identiek in hun perfectie). De computer geeft een 10.
Als het antwoord veel mist, is de tekst over "wat ontbreekt" lang en gedetailleerd. De foto en die lange lijst met ontbrekende dingen lijken totaal niet op elkaar. De computer ziet een groot verschil en geeft een lage score.

Het systeem meet dus eigenlijk: "Hoe goed past het antwoord bij de kritiek?" Als er niets te bekritiseren valt, passen ze perfect bij elkaar.

Waarom is dit beter?

1. Geen "Gelijkspel" meer
Bij cijfers van 1 tot 10 gebeuren er vaak "gelijkspelen". Twee heel verschillende antwoorden krijgen allebei een 7. De computer denkt dan: "Oké, ze zijn even goed, ik kan niets leren."
Bij WIM is dit zeldzaam. Omdat elke kritiek uniek is, krijgt elk antwoord een heel specifiek, uniek cijfer. Het is alsof je in plaats van "goed" of "slecht" zegt: "De linkse schoen is een maat te groot, maar de rechter is perfect." Dat is veel nuttiger om te leren.

2. Het is begrijpelijk (Interpreteerbaar)
Als een computer een slecht cijfer krijgt, kun je bij de oude methode niet weten waarom. Bij WIM kun je direct lezen: "Ah, de computer gaf een lage score omdat ik vergeten ben de datum te noemen." Je kunt de fout dus direct zien en oplossen. Het is alsof je een examen terugkrijgt met rode strepen en aantekeningen, in plaats van alleen een cijfer op je bladzijde.

3. Het werkt met alles
Je hoeft geen nieuwe computerprogramma's te bouwen om dit te gebruiken. Je kunt WIM gewoon toevoegen aan de bestaande systemen die AI-modellen trainen. Het is als een nieuwe, betere brandstof die je in elke auto kunt gieten om hem sneller te laten rijden.

Wat hebben ze bewezen?

De auteurs hebben getest of dit systeem werkt. Ze lieten een AI-model (een slimme computer) oefenen met deze nieuwe methode.

Resultaat: De AI leerde sneller en werd beter in het geven van goede antwoorden dan wanneer ze alleen cijfers kregen.
De "Vaste" vs. "Wandelende" Jury: Ze hebben ook getest of de AI zichzelf mag beoordelen.
- Vaste Jury: Een statische, onbeweeglijke jury die altijd op dezelfde manier kijkt. Dit werkte het beste.
- Wandelende Jury: De AI beoordeelt zichzelf terwijl hij groeit. Dit was wat onrustiger, alsof je probeert te leren fietsen terwijl je zelf je fiets aanpast.

Conclusie

Dit paper zegt eigenlijk: "Stop met het geven van vaage cijfers. Vertel ons wat er mist."

Door te focussen op wat er ontbreekt in plaats van een willekeurig cijfer te geven, krijgen AI-modellen een veel duidelijker signaal om van te leren. Het is de overstap van "Je hebt een 6" naar "Je hebt een 6 omdat je de conclusie hebt vergeten." Dat is een stuk makkelijker om mee te werken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "What Is Missing: Interpretable Ratings for Large Language Model Outputs" in het Nederlands.

Titel: What Is Missing (WIM): Interpretable Ratings for Large Language Model Outputs

Auteurs: Nicholas Stranges en Yimin Yang (Western University, Canada)

1. Het Probleem

Huidige methoden voor het leren van voorkeuren bij Large Language Models (LLM's), zoals Proximal Policy Optimization (PPO) en Direct Preference Optimization (DPO), vertrouwen vaak op directe rangschikkingen of numerieke ratings (bijv. een schaal van 1 tot 10) door een menselijke of AI-jury. Het paper identificeert twee fundamentele tekortkomingen in deze bestaande systemen:

Gebrek aan Interpretatie: Een enkel numeriek cijfer is een slechte proxy voor de kwaliteit van natuurlijke taal. Het is moeilijk om de waarde van een antwoord in één getal te vatten, en het is onmogelijk om te begrijpen waarom een jurylid een specifieke rangschikking heeft gekozen. Dit maakt het debuggen van voorkeurslabels lastig.
Verlies van Leerkracht (Learning Signal): Numerieke ratings zijn discreet en leiden vaak tot "ties" (gelijkwaardige scores). Als twee antwoorden dezelfde score krijgen (bijvoorbeeld beide een 8), kan er geen leerkracht worden gegenereerd voor het model, omdat er geen duidelijk onderscheid is tussen een "winnaar" en een "verliezer". Experimenten tonen aan dat bij numerieke ratings tot 42,78% van de paren dezelfde score krijgt, wat de effectiviteit van het trainingsproces beperkt.

2. Methodologie: Het WIM-systeem

De auteurs introduceren What Is Missing (WIM), een ratingsysteem dat natuurlijke taalfeedback gebruikt om rangschikkingen te genereren. Het proces verloopt als volgt:

Feedback Generatie: Een jury (mens of LLM) bekijkt de output van het model ( $s_1$ ) en schrijft een natuurlijke taaltekst ( $s_2$ ) die beschrijft wat er ontbreekt in het antwoord (bijv. ontbrekende feiten, onvolledige instructies).
Embedding: Zowel de modeloutput ( $s_1$ ) als de "wat ontbreekt"-feedback ( $s_2$ ) worden verwerkt door een sentence embedding model (in dit geval all-mpnet-base-v2) om hoge-dimensionele vectorrepresentaties ( $S_1$ en $S_2$ ) te creëren.
Berekening van de Score: De WIM-score wordt berekend als de cosine-sequentie tussen $S_1$ $S_{1}$ en $S_2$ $S_{2}$ .
- Een hoge cosine-sequentie (dicht bij 1) betekent dat de output en de feedback semantisch sterk overlappen, wat impliceert dat er weinig ontbreekt (een hoge kwaliteit).
- Een lage sequentie (dicht bij -1 of 0) betekent dat er veel ontbreekt of dat de feedback sterk afwijkt van de output.
- Als er geen feedback wordt gegeven (niets ontbreekt), wordt per definitie een perfecte score van 1 toegewezen.
Integratie: De WIM-scores worden gebruikt om outputs te rangschikken. Deze rangschikking kan worden ingevoerd in bestaande voorkeursleeralgoritmen (zoals DPO of PPO) zonder de leeralgoritmen zelf te hoeven aanpassen. Het systeem is dus "algorithm-agnostic".

Wiskundige Basis:
De auteurs modelleren de "ontbrekendheid" als een orthogonale component in de vectorruimte. Als de vector van de feedback ( $S_2$ ) een grotere orthogonale component heeft ten opzichte van de output-vector ( $S_1$ ), neemt de mate van ontbrekende informatie toe, wat resulteert in een lagere cosine-sequentie.

3. Belangrijkste Bijdragen

Interpreteerbaarheid: Elke scalar-score is direct gekoppeld aan de tekstuele feedback ("wat ontbreekt"). Dit stelt onderzoekers in staat om kwalitatief te debuggen waarom een label zo is gekozen (bijv. detectie van instructie-herhalingsfouten of irrelevante kritiek).
Verbeterde Leerkracht: In plaats van discrete scores, levert WIM een continue verdeling op. Dit resulteert in veel minder gelijke scores (ties) en grotere verschillen (deltas) tussen winnende en verliezende antwoorden.
Flexibiliteit: Het systeem kan worden gecombineerd met andere ratingmethoden (bijv. een hybride score van numeriek en WIM) en werkt met zowel menselijke als AI-jury's (inclusief "self-judging" waarbij het model zijn eigen output beoordeelt).

4. Resultaten en Experimenten

De auteurs hebben een Meta-Llama-3-8B-Instruct model getraind met behulp van het UltraFeedback-dataset en vergeleken de WIM-methode met een traditionele 1-10 numerieke rating.

Verdeling van Scores: Numerieke ratings waren sterk geclusterd rond 7 en 8. De WIM-verdeling leek meer op een continue verdeling met minder ties.
Rating Delta: Het gemiddelde verschil tussen de scores van winnende en verliezende antwoorden was 47,82% groter bij WIM (1,396) dan bij numerieke ratings (0,928).
Aantal Ties: Bij numerieke ratings kregen 42,78% van de paren dezelfde score, terwijl dit bij WIM slechts 2,00% was. Dit betekent dat WIM veel vaker een bruikbare leerkracht genereert.
Trainingsdynamiek:
- Verlies: Het WIM-systeem (met een vaste jury) verlaagde het DPO-verlies met een factor van 2,95 ten opzichte van de numerieke methode.
- Entropie: WIM met een vaste jury leidde tot een grotere daling in de gemiddelde entropie (-106,94), wat suggereert dat het model zekerder wordt in zijn antwoorden.
- Reward Advantage: De "reward advantage" (het verschil in beloning tussen gekozen en verworpen antwoorden) nam sterker toe bij WIM, wat wijst op een effectievere optimalisatie.
Prestatie op Taken: Op een testset (ultrafeedback-prompt) behaalde het model getraind met WIM (vaste jury) een 3,79% hogere win-rate vergeleken met het model getraind met numerieke ratings.

5. Betekenis en Conclusie

Dit paper introduceert een paradigmaverschuiving in het post-training van LLM's. In plaats van te focussen op het verbeteren van de leeralgoritmen zelf, richt WIM zich op het verbeteren van de kwaliteit en aard van de trainingsdata.

De belangrijkste implicaties zijn:

Efficiënter Leren: Door het verminderen van ties en het vergroten van de rating-deltas, leert het model sneller en effectiever uit voorkeursdata.
Transparantie: De mogelijkheid om de tekstuele feedback te inspecteren voor elke score biedt een nieuw niveau van inzicht en controle in het alignment-proces.
Toekomstige Richtingen: De methode is compatibel met bestaande infrastructuren en kan worden uitgerold op andere voorkeursleermethoden. De auteurs zien potentie in het gebruik van WIM voor het trainen van redeneermodellen en in combinatie met Reinforcement Learning with Verifiable Rewards (RLVR).

Kortom, "What Is Missing" biedt een eenvoudige maar krachtige techniek om de interpretatie en effectiviteit van voorkeursleer voor LLM's aanzienlijk te verbeteren.

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Het Probleem: De Vage "10"

De Oplossing: "Wat Ontbreekt?" (WIM)

Hoe werkt het technisch? (De Magische Spiegel)

Waarom is dit beter?

Wat hebben ze bewezen?

Conclusie

Titel: What Is Missing (WIM): Interpretable Ratings for Large Language Model Outputs

1. Het Probleem

2. Methodologie: Het WIM-systeem

3. Belangrijkste Bijdragen

4. Resultaten en Experimenten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers