Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Each language version is independently generated for its own context, not a direct translation.

Titel: Van "Ja/Nee" naar "Iets Beter": Een Nieuwe Manier om AI Te Leren Wat Mensen Vinden

Stel je voor dat je een chef-kok bent die een nieuw recept wil perfectioneren. Je vraagt aan je gasten of ze het eten lekker vinden.

De Oude Manier (Het "Ja/Nee" Probleem)
Tot nu toe hebben onderzoekers de gasten alleen gevraagd: "Is dit gerecht beter dan dat andere?"
De gasten moeten dan kiezen: Ja of Nee.
Dit is als een lichtschakelaar: aan of uit. De AI leert hieruit dat gerecht A goed is en gerecht B slecht. Maar wat als gerecht A enorm veel lekkerder is dan B? Of wat als ze bijna even lekker zijn? Met alleen een "Ja/Nee" antwoord verlies je al die fijne nuances. De AI weet niet hoeveel beter het is, alleen dat het beter is.

In de wereld van AI noemen we dit het Bradley-Terry model. Het werkt prima, maar het is een beetje dom omdat het geen ruimte laat voor "misschien wel een beetje" of "heel erg".

De Nieuwe Manier (De "Lekkerheids-schaal")
In dit nieuwe onderzoek (van ICLR 2026) zeggen de auteurs: "Wacht even, mensen geven vaak veel gedetailleerdere feedback!"
In plaats van alleen "Ja/Nee", zeggen mensen vaak:

"Dit is enorm lekkerder."
"Dit is een beetje lekkerder."
"Dit is net lekkerder."
"Dit is niet lekkerder."

Dit noemen we ordinaal feedback (op een schaal van 1 tot 5, of -3 tot +3). Het is als een dimmerknop in plaats van een schakelaar. Je kunt de helderheid van het licht precies instellen.

Het Probleem met de Huidige Oplossingen
Helaas weten de huidige AI-methodes niet goed hoe ze met deze "dimmerknop" moeten omgaan. Ze proberen het op een slordige manier op te lossen, alsof ze een zware deur proberen te openen met een postzegel.
Ze doen dingen als:

"Als iemand zegt 'enorm lekkerder', dan tellen we de beloning 3 keer zo zwaar."
"Als iemand 'een beetje' zegt, dan tellen we maar 1 keer."

Dit werkt, maar het is willekeurig. Waarom 3 keer? Waarom niet 2,5? De onderzoekers moeten dit zelf raden en handmatig instellen. Het is alsof je een auto rijdt met een stuur dat je zelf moet vastzetten met tape. Het kan werken, maar het is niet veilig of slim.

De Oplossing: Een Slimme Regelset
De auteurs van dit paper hebben een nieuwe, wiskundig perfecte manier bedacht. Ze behandelen het probleem niet als een "Ja/Nee" vraag, maar als een ordinaal regressie probleem.

Stel je voor dat je een lange, rechte weg hebt (de "beloningsweg").

De oude methode deelde deze weg in tweeën: links is "slecht", rechts is "goed".
De nieuwe methode plaatst drie onzichtbare drempels (of poortjes) op die weg.
- Als de AI een antwoord geeft dat net iets beter is, springt het over het eerste poortje.
- Als het een stuk beter is, springt het over het tweede.
- Als het fantastisch is, springt het over het derde.

Het mooie aan deze nieuwe methode is dat de AI zelf leert waar die poortjes staan. De AI hoeft niet te raden of de poortjes op 1, 2 of 3 moeten staan. De AI kijkt naar duizenden voorbeelden van mensen die zeggen "iets lekkerder" of "enorm lekkerder" en leert daaruit: "Ah, als de gast zegt 'iets', dan moet de waarde tussen poortje 1 en 2 liggen. Als ze 'enorm' zeggen, dan moet het voorbij poortje 3 zijn."

Waarom is dit zo geweldig?

Geen Gokken Meer: De AI leert de regels zelf uit de data. Geen handmatige instellingen meer die je elke keer opnieuw moet doen als je de schaal verandert.
Veiligheid: Als de AI een fout maakt, maakt hij hem nu "zachtjes".
- Oude AI: "Ik denk dat dit antwoord 100% perfect is!" (Terwijl het eigenlijk slecht is). Dit is gevaarlijk, want de AI is dan heel zelfverzekerd over iets fouts.
- Nieuwe AI: "Hmm, dit is misschien net iets beter, maar ik ben niet 100% zeker." De fouten zijn kleiner en minder overtuigend. Dit is veel veiliger voor de toekomstige AI.
Beter Begrip: De AI leert niet alleen welk antwoord beter is, maar ook hoeveel beter. Dit helpt de AI om veel fijner te reageren op menselijke wensen.

De Resultaten
De onderzoekers hebben dit getest op verschillende taken (zoals chatten, wiskunde oplossen en veiligheidsvragen). Het resultaat?

De nieuwe methode werkt beter dan de oude, handmatige methodes.
De AI maakt minder fouten.
Als de AI toch een fout maakt, is het een kleine, twijfelachtige fout in plaats van een enorme, zelfverzekerde fout.

Conclusie
Kortom: Mensen zijn niet zwart-wit. We vinden dingen "een beetje" of "heel veel" beter. Deze nieuwe methode geeft de AI eindelijk de tools om die nuance te begrijpen, zonder dat we de AI hoeven te vertellen hoe we dat moeten doen. Het is alsof we de AI eindelijk een echte smaakpapil hebben gegeven in plaats van alleen een schakelaar.

Each language version is independently generated for its own context, not a direct translation.

Titel: Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Conferentie: ICLR 2026
Auteurs: Amirhossein Afsharrad et al. (Stanford, Amazon AGI, EPFL, Qualcomm AI Research, Aktus AI)

1. Het Probleem

Huidige methoden voor het uitlijnen van grote taalmodellen (LLM's) met menselijke voorkeuren, zoals Reinforcement Learning from Human Feedback (RLHF) en Direct Preference Optimization (DPO), vertrouwen bijna uitsluitend op het Bradley-Terry (BT) model. Dit model is ontworpen voor binaire vergelijkingen (bijv. "Antwoord A is beter dan B").

Echter, menselijke annotatoren leveren vaak ordinaal feedback op een Likert-schaal (bijv. "aanzienlijk beter", "beter", "lichtelijk beter", "verwaarloosbaar beter"). Bestaande methoden proberen deze rijkere informatie te benutten via ad-hoc heuristieken, zoals:

Het toevoegen van vaste marges tussen voorkeursniveaus.
Het schalen van de loss-functie op basis van de sterkte van de voorkeur.
Het behandelen van ordinaal labels als zachte waarschijnlijkheidslabels.

De beperkingen van deze aanpak:

Gebrek aan theoretische onderbouwing: Er is geen wiskundig model dat beschrijft hoe menselijke ordinaal labels worden gegenereerd; de aanpassingen zijn intuïtief en niet principieel.
Hyperparameter-tuning: Ze vereisen handmatig gekozen parameters (zoals de grootte van een marge of schalingsfactor) die moeilijk te interpreteren zijn en gevoelig zijn voor veranderingen in het dataset-ontwerp.
Verlies van signaal: De nuance in de sterkte van de voorkeur wordt niet systematisch verwerkt.

2. Methodologie

De auteurs herformuleren het probleem van reward modeling met ordinaal feedback als een discrete ordinale regressie (discrete ordinal regression). In plaats van het BT-model te "repareren", passen ze gevestigde statistische frameworks toe die specifiek zijn ontworpen voor geordende categorische data.

Kernconcepten:

Latente Variabele: Het model leert een scorefunctie $s_\phi(x, y, y') = r_\phi(x, y) - r_\phi(x, y')$ (het verschil in beloning tussen twee antwoorden).
Drempelwaarden (Thresholds): De continue ruimte van beloningsverschillen wordt opgesplitst in segmenten door een reeks geleerde drempelwaarden $\zeta$ $ζ$ . Een observatie $z$ $z$ (het ordinaal label) correspondeert met het segment waarin de score valt.
- Bijvoorbeeld: Als $z=2$ ("aanzienlijk beter"), dan moet de score liggen tussen $\zeta_1$ en $\zeta_2$ .

Twee Principiële Loss-functies:

De paper introduceert twee loss-functies die direct uit het ordinale regressie-framework worden afgeleid:

Negatieve Log-Likelihood (NLL) Loss (Probabilistische aanpak):
- Gebaseerd op het Ordered Logit Model.
- Modelleert de cumulatieve waarschijnlijkheid $P(z \le k | x)$ .
- De loss straft het model af voor het toekennen van lage waarschijnlijkheid aan het waargenomen voorkeursniveau.
- Formule: $L_{NLL} = -\log P(y \succ_z y' | x)$ .
All-Threshold (AT) Loss (Margin-gebaseerde aanpak):
- Gebaseerd op large-margin methoden (geen expliciete probabilistische interpretatie).
- Straft elke schending van een drempelwaarde af. Als de ware label $z$ is, moet de score groter zijn dan alle drempels $\zeta_l$ waarvoor $l < z$ , en kleiner dan alle drempels waarvoor $l \ge z$ .
- Deze loss is gevoeliger voor grote classificatiefouten dan de Immediate-Threshold loss.

Belangrijke Theoretische Inzichten:

Regularisatie is noodzakelijk: De auteurs bewijzen (Theorema 3.1) dat zonder regularisatie het optimalisatieprobleem ongebonden oplossingen heeft. Zonder straffen kunnen de drempelwaarden en beloningswaarden willekeurig groot worden terwijl de loss daalt. Ze introduceren een $L_2$ -regularisatie op de drempels om dit op te lossen.
Symmetrie: Ze tonen aan (Theorema 3.2) dat als menselijke voorkeuren symmetrisch zijn (bijv. "A is sterk beter dan B" is even sterk als "B is sterk slechter dan A"), de drempelwaarden ook symmetrisch moeten zijn ( $\zeta_{-k} = -\zeta_k$ ). Dit reduceert het aantal parameters en verbetert de generalisatie.

3. Belangrijkste Bijdragen

Eerste principieel framework: Het biedt het eerste wiskundig onderbouwde framework om Likert-schaal voorkeuren direct in reward modeling te integreren, zonder ad-hoc heuristieken.
Leren van parameters: In tegenstelling tot bestaande methoden die handmatige marges vereisen, leert het model alle drempelparameters direct uit de data binnen een coherent probabilistisch of margin-based raamwerk.
Theoretische garanties: Bewijzen voor de noodzaak van regularisatie om convergentie te garanderen en de theoretische rechtvaardiging voor symmetrische drempels.
Uitbreidbaarheid: Het framework is direct toepasbaar op DPO (Direct Preference Optimization) door de pseudo-beloning te gebruiken in plaats van de directe beloning.

4. Resultaten

De methode is getest op diverse benchmarks (RewardBench, RM-Bench) met modellen zoals Llama-3.1-8B, Mistral-7B en Zephyr-7B, getraind op datasets HelpSteer2 en HelpSteer3.

Prestatie: De NLL-Symmetrische methode presteert consistent beter dan of gelijk aan bestaande heuristieken (Margin BT, Scaled BT, Soft Label). Gemiddeld behalen ze 2-5% hogere scores.
Ordinale Nauwkeurigheid: Het model leert niet alleen de rangorde, maar ook de sterkte van de voorkeur.
- Op validatiedata wordt ongeveer 55% exacte nauwkeurigheid bereikt.
- 85% van de voorspellingen ligt binnen één ordinaal niveau van de ware waarde.
Foutenanalyse (Error Severity):
- Het model maakt 35% minder fouten dan standaard BT.
- Cruciaal: De gemiddelde ernst van fouten daalt met 87% (van 3.827 naar 0.501). Bestaande methoden maken vaak fouten met hoge zekerheid (grote marges), terwijl het ordinale model fouten alleen maakt bij genuanceerde, onduidelijke gevallen.
Robuustheid: Het framework is zeer robuust tegen systematische verschuivingen in labels (bijv. als annotatoren consequent te streng zijn), omdat de geleerde drempels deze bias absorberen. Bij willekeurige ruis degradeert het model echter netjes (graceful degradation).
Joint Training vs. Post-hoc: Het gezamenlijk trainen van belonings- en drempelparameters presteert aanzienlijk beter dan het trainen van een standaard model en het later "kalibreren" van drempels (post-hoc calibration).

5. Betekenis en Conclusie

Dit werk markeert een verschuiving in het veld van LLM-uitlijning. Het toont aan dat het negeren van de ordinale structuur van menselijke feedback een groot potentieel verlies aan informatie betekent.

Van heuristiek naar theorie: Het vervangt giswerk en handmatige tuning door een wiskundig solide basis.
Betere kalibratie: Reward modellen die ordinaal leren, zijn beter gekalibreerd en maken minder "zeker maar verkeerde" voorspellingen, wat essentieel is voor veilige en effectieve RLHF.
Toekomstperspectief: Het framework biedt een fundament voor het verwerken van nog complexere feedbackvormen, zoals multi-aspect ratings of onzekerheidsscores, en is direct toepasbaar op moderne optimalisatie-algoritmen zoals DPO.

Kortom, door menselijke voorkeuren te behandelen als wat ze zijn (ordinaal en niet-binair), kunnen we nauwkeurigere, robuustere en beter geïnterpreteerde reward modellen bouwen.

Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Titel: Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

1. Het Probleem

2. Methodologie

Kernconcepten:

Twee Principiële Loss-functies:

Belangrijke Theoretische Inzichten:

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction