DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Dit paper introduceert DARC, een retraining-vrije inferentiemethode die door middel van risicogebaseerde decodering en verdelingsrobuustheid de gevolgen van menselijke meningsverschillen vermindert en de stabiliteit van gealigneerde taalmodellen verbetert zonder de gemiddelde kwaliteit te verlagen.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms verwarde assistent hebt die voor je schrijft. Je vraagt hem om een verhaal te vertellen, en hij genereert tien verschillende versies. Nu moet jij kiezen: welke versie is de beste?

In de wereld van kunstmatige intelligentie (AI) doen we dit vaak door te kijken naar wat de "meeste mensen" leuk vinden. We nemen de gemiddelde mening van een groep beoordelaars en kiezen het verhaal dat die gemiddelde score het hoogst heeft.

Het probleem? Mensen zijn niet allemaal hetzelfde.

Soms vinden mensen het ene verhaal grappig, terwijl anderen het belachelijk vinden. Soms vinden sommigen het te formeel, terwijl anderen het juist te informeel vinden. Als je alleen kijkt naar het gemiddelde, kun je een verhaal kiezen dat voor niemand echt goed is, maar wel netjes in het midden ligt. Of erger: je kiest een verhaal dat voor de meerderheid prima is, maar voor een specifieke groep mensen echt slecht of zelfs beledigend is. Dit noemen de auteurs "risico" of "onzekerheid".

Deze paper introduceert een nieuwe methode, genaamd DARC, om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Gemiddelde" Valstrik

Stel je voor dat je een restaurantkeuze moet maken voor een grote groep vrienden.

  • De oude manier (RLHF/DPO): Je vraagt aan iedereen wat ze lekker vinden, telt alles bij elkaar op en kiest het gerecht met de hoogste totale score.
    • Het gevaar: Misschien kiest iedereen voor pizza, maar een paar mensen zijn allergisch voor kaas. De pizza wint, maar voor die paar mensen is het een ramp. Of misschien is er een gerecht dat 50% van de mensen geweldig vindt en 50% haat. De gemiddelde score is hoog, maar het is een gok.
  • Het resultaat: De AI kiest vaak antwoorden die "veilig" zijn voor de massa, maar die voor specifieke mensen teleurstellend of zelfs schadelijk kunnen zijn.

2. De Oplossing: DARC (De "Voorzichtige Chef")

DARC is als een nieuwe, slimme chef-kok die niet alleen kijkt naar de gemiddelde score, maar ook naar hoe verdeeld de meningen zijn.

Stel je voor dat de chef twee opties heeft:

  • Optie A: Iedereen vindt het eten "voldoende" (een 6). Niemand is er dol op, maar niemand is er ook boos over. De meningen zijn heel gelijk.
  • Optie B: De helft van de mensen vindt het "heerlijk" (een 10), de andere helft vindt het "afschuwelijk" (een 2). De gemiddelde score is ook een 6.

Een oude AI zou misschien Optie B kiezen omdat de "pieken" (de 10-en) zo hoog zijn. Maar DARC zegt: "Wacht even, Optie B is een gok. Er is een groot risico dat de gasten die een 2 krijgen, echt boos worden."

DARC kiest daarom liever Optie A. Het is misschien niet het allerbeste gerecht voor de liefhebbers, maar het is veilig en iedereen is er tevreden mee.

3. Hoe werkt DARC precies? (De "Risico-Budget")

DARC gebruikt een slimme truc die ze "Risico-beperkte Decoding" noemen.

  • Het Risico-Meter: DARC kijkt niet alleen naar de score, maar ook naar de "trilling" of "onzekerheid" rondom die score. Als de meningen van de beoordelaars heel erg uit elkaar liggen (hoge onenigheid), ziet DARC dat als een risico.
  • De Budget: Stel je voor dat je een budget hebt voor risico. DARC zegt: "Ik mag een antwoord kiezen dat iets minder perfect is voor de gemiddelde mens, zolang het maar niet te gevaarlijk is voor de mensen die het misschien niet leuk vinden."
  • De Strijdbare Kandidaten: Soms heeft de AI een antwoord dat heel goed is voor de meeste mensen, maar heel slecht voor een kleine groep. DARC ziet dit als een "strijdbare" kandidaat en zegt: "Nee, te riskant." Het kiest in plaats daarvan een antwoord dat iets minder opvallend is, maar waar iedereen het mee eens is.

4. Waarom is dit belangrijk?

In de echte wereld willen we dat AI niet alleen slim is, maar ook betrouwbaar.

  • Als een AI een politiek vraagstuk beantwoordt, wil je niet dat hij een antwoord geeft dat de ene helft van de bevolking inspireert en de andere helft boos maakt. Je wilt een antwoord dat neutraal en correct is voor iedereen.
  • Als een AI een juridisch advies geeft, wil je niet dat hij een antwoord kiest dat voor de meeste mensen goed lijkt, maar voor een specifieke groep mensen gevaarlijk is.

DARC zorgt ervoor dat de AI niet te gretig is om de hoogste score te halen, maar juist voorzichtig is om niemand teleur te stellen. Het is alsof je van een "winnaar-take-all" strategie overschakelt naar een "iedereen is tevreden" strategie.

Samenvatting in één zin

DARC is een slimme filter die ervoor zorgt dat een AI niet kiest voor het antwoord dat de meeste mensen leuk vinden (maar waar anderen boos over zijn), maar kiest voor het antwoord dat de minste teleurstellingen veroorzaakt, zelfs als dat betekent dat het gemiddelde iets lager is. Het is de kunst van het kiezen van de "veiligste" en meest inclusieve optie.