Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Deze paper introduceert CoIPO, een methode die gebruikmaakt van contrastief leren en inverse directe voorkeursoptimalisatie om de intrinsieke weerstand van grote taalmodellen tegen ruis in prompts te verbeteren, wat resulteert in een aanzienlijke prestatieverbetering op de nieuwe NoisyPromptBench-benchmark.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xunliang Cai, Wenyuan Jiang

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we AI's leren om niet te paniekken als je een tikfout maakt

Stel je voor dat je een zeer intelligente, maar soms wat nerveuze assistent hebt. Deze assistent (een "Large Language Model" of LLM) kan prachtige verhalen schrijven, wiskundeproblemen oplossen en code schrijven. Maar er is één groot probleem: deze assistent is extreem gevoelig voor kleine foutjes.

Als jij typt: "Wat is de hoofdstad van Frankrijk?", geeft hij het perfecte antwoord: "Parijs".
Maar als je per ongeluk typt: "Wat is de hoofdstad van Frrankrijk?" (met een dubbele 'r'), of "Wat is de hoofdstad van Frankrijk, trouwens, ik hou van pizza?", dan raakt de assistent in de war. Hij kan een onzinantwoord geven, of helemaal stoppen. In de echte wereld maken mensen echter vaak tikfouten, gebruiken ze verkeerde woorden of voegen ze onnodige details toe.

De auteurs van dit paper (Xin Yang en zijn team) zeggen: "Waarom moeten we de assistent steeds corrigeren voordat hij aan het werk gaat? Laten we de assistent zelf leren om tegen die rommel te kunnen."

Hier is hoe ze dat doen, uitgelegd met een paar creatieve analogieën:

1. Het oude probleem: De "Tolk" die te traag is

Vroeger dachten onderzoekers: "Oké, als de gebruiker een fout maakt, laten we eerst een andere AI of een grammatica-checker gebruiken om de zin te repareren, en dan pas de hoofdpijn laten antwoorden."

Dit is alsof je een boodschap wilt geven aan een koning, maar je eerst een tolk moet inhuren om je taal te verbeteren, voordat je de boodschap mag brengen.

  • Nadeel 1: Het kost tijd en geld (de tolk moet betaald worden).
  • Nadeel 2: De tolk kan zelf fouten maken, waardoor de boodschap aan de koning nog verdraait raakt.
  • Nadeel 3: Je bent afhankelijk van die extra persoon. Wat als de tolk er niet is?

2. De nieuwe oplossing: CoIPO (De "Spiegel-Training")

De auteurs hebben een nieuwe methode bedacht die CoIPO heet. In plaats van een externe tolk, trainen ze de AI zelf om robuust (weerbaar) te worden.

Stel je voor dat je een atleet traint voor een wedstrijd in de regen.

  • De oude manier: Je laat de atleet alleen in de zon trainen, en als het regent, geef je hem een paraplu (de externe tool).
  • De CoIPO-methode: Je neemt de atleet mee de regen in, maar je geeft hem een spiegel.

Hoe werkt die spiegel?

  1. Je geeft de AI twee vragen:
    • Vraag A (Schoon): "Wat is de hoofdstad van Frankrijk?"
    • Vraag B (Vuil): "Wat is de hoofdstad van Frrankrijk?" (met een tikfout).
  2. De AI moet nu leren dat Vraag A en Vraag B eigenlijk precies hetzelfde bedoelen.
  3. De AI wordt gestraft als hij op Vraag B een ander antwoord geeft dan op Vraag A.
  4. Tegelijkertijd krijgt hij een Vraag C die totaal iets anders is (bijvoorbeeld: "Wat is de hoofdstad van Nederland?"). Hij moet leren dat dit niet hetzelfde is als Vraag A of B.

Door dit duizenden keren te oefenen, leert de AI: "Ah, het maakt niet uit of er een tikfout in staat of een rare zin erbij staat, zolang de betekenis maar hetzelfde blijft, moet ik hetzelfde antwoord geven."

3. De "Spiegel" in de praktijk: Contrastief Leren

De wetenschappelijke term voor deze methode is Contrastive Learning (Spiegelend Leren) gecombineerd met Inverse Direct Preference Optimization.

  • Spiegelend Leren: De AI vergelijkt het antwoord op de "vrije" zin met het antwoord op de "rommelige" zin. Hij probeert de verschillen tussen de twee antwoorden zo klein mogelijk te maken.
  • De "Inversie": Normaal gesproken vraagt men een AI: "Geef me het beste antwoord op deze vraag."
    Bij CoIPO vragen ze: "Als ik deze vraag op twee manieren stel (schoon en vuil), moeten jullie dezelfde conclusie trekken."

4. Wat hebben ze gedaan om dit te testen?

De auteurs hebben niet alleen een theorie bedacht, maar ook een sportzaal gebouwd om hun AI te testen:

  • De Paired FLAN Dataset: Ze hebben duizenden vragen genomen en er automatisch "vuile" versies van gemaakt (met tikfouten, rare woorden, etc.). Dit is het trainingsmateriaal.
  • NoisyPromptBench: Een nieuwe testbaan. Net zoals je een auto test op een weg met gaten, bulten en modder, testen ze hun AI op vragen die opzettelijk bedorven zijn.

5. Het resultaat: Een onkreukbare AI

De resultaten zijn indrukwekkend:

  • De AI die met CoIPO is getraind, maakt veel minder fouten als de gebruiker een tikfout maakt.
  • Hij is sneller, omdat je geen extra "tolk" (externe tool) meer nodig hebt.
  • Hij is slimmer: hij leert de betekenis te begrijpen, in plaats van alleen op de letters te letten.

Kortom:
Stel je voor dat je een robot bouwt die je huis moet schoonmaken.

  • De oude robots stoppen als je per ongeluk een knop verkeerd indrukt of een verkeerd woord zegt.
  • De nieuwe robot (CoIPO) denkt: "Ah, je bedoelde 'veeg de vloer', ook al zei je 'veeg de vloer' met een 'z' in plaats van een 's'. Geen probleem, ik ga het doen."

Dit paper laat zien hoe we AI's kunnen maken die niet alleen slim zijn, maar ook geduldig en vergevingsgezind voor de onvolmaaktheden van de menselijke taal.