How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Dit artikel introduceert SteerEval, een hiërarchisch benchmarkkader dat de controleerbaarheid van grote taalmodellen evalueert op drie niveaus van gedragsgranulariteit en aantoont dat de effectiviteit van besturingsmethoden afneemt naarmate de specificatie gedetailleerder wordt.

Ziwen Xu, Kewei Xu, Haoming Xu, Haiwen Hong, Longtao Huang, Hui Xue, Ningyu Zhang, Yongliang Shen, Guozhou Zheng, Huajun Chen, Shumin Deng

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taalmodel (LLM) een zeer getalenteerde, maar soms onvoorspelbare acteur is. Je kunt hem een rol geven, maar hij kan zijn eigen ideeën hebben over hoe hij die rol moet spelen. Soms is hij te luidruchtig, soms te saai, of hij verandert plotseling van karakter midden in een scène.

Deze paper, getiteld "Hoe controleerbaar zijn Grote Taalmodellen?", introduceert een nieuwe manier om te testen of we deze acteurs echt kunnen sturen. De auteurs noemen hun testbench SteerEval.

Hier is de uitleg in simpele taal, met behulp van een paar creatieve vergelijkingen:

1. Het Probleem: De Acteur die uit het script valt

We gebruiken AI steeds vaker voor belangrijke dingen, zoals in het onderwijs of de gezondheidszorg. Maar wat als de AI ineens een boze toon aanslaat terwijl je een vriendelijk antwoord nodig hebt? Of wat als hij zegt dat hij "onafhankelijk" is, maar dan toch alles doet wat jij zegt? Dat is gevaarlijk. We moeten kunnen zeggen: "Speel deze rol, op deze manier, met deze specifieke woorden."

2. De Oplossing: De "SteerEval" Ladder

De onderzoekers hebben een nieuwe test ontwikkeld, SteerEval, die werkt als een ladder met drie sporten. Ze testen of de AI kan doen wat je vraagt op drie verschillende niveaus van moeilijkheid:

  • Sport 1 (L1): De Hoogtepunten (Wat moet er gezegd worden?)
    • Vergelijking: Je zegt tegen de acteur: "Speel een blij personage."
    • Test: Zegt de AI iets positiefs? Dit is makkelijk. De AI kan dit vaak goed.
  • Sport 2 (L2): De Manier van Spelen (Hoe moet het gezegd worden?)
    • Vergelijking: Je zegt: "Speel een blij personage, maar doe het alsof je een opgewonden kind bent dat hard lacht."
    • Test: Gebruikt de AI de juiste toon en energie? Hier beginnen de problemen. De AI is soms blij, maar klinkt als een robot, niet als een kind.
  • Sport 3 (L3): De Micro-Acties (De exacte details)
    • Vergelijking: Je zegt: "Speel een blij personage, en gebruik precies drie uitroeptekens en het woord 'fantastisch' in elke zin."
    • Test: Dit is het zwaarste. De AI moet niet alleen blij zijn, maar ook aan die specifieke regels voldoen. Hier faalt de AI vaak, zelfs als hij de eerste twee sporten haalt.

De grote ontdekking: Hoe gedetailleerder je instructie is (van L1 naar L3), hoe moeilijker het wordt voor de AI om je te gehoorzamen. Het is alsof je een danser vraagt om te dansen (makkelijk), dan om te dansen met een glimlach (moeilijker), en dan om te dansen terwijl hij precies op elke tel een knipoog maakt (bijna onmogelijk zonder te struikelen).

3. De Twee Manieren om te Sturen

De paper test twee methoden om de AI te sturen:

  1. De "Prompt" Methode (Het Script):
    • Je schrijft een duidelijke instructie voor de AI: "Doe dit, doe dat."
    • Resultaat: Dit werkt over het algemeen heel goed, zelfs op de moeilijke sporten (L3). Het is alsof je de acteur een heel gedetailleerd script geeft.
  2. De "Activering" Methode (De Regisseur in het hoofd):
    • Je pakt de AI "in het geheim" aan en verandert een klein stukje in zijn interne brein (de neurale netwerken) om een bepaald gedrag te forceren.
    • Resultaat: Dit werkt goed als je alleen vraagt om een algemeen gevoel (L1). Maar zodra je vraagt om specifieke details (L2 en L3), gaat het mis. Het is alsof je de acteur probeert te sturen door aan een onzichtbare draad te trekken; hij begint wel te dansen, maar vergeet de specifieke stappen.

4. Waarom is dit belangrijk?

Vroeger keken onderzoekers alleen of de AI "blij" of "boos" was. Nu zien we dat controle afhangt van hoe specifiek je bent.

  • Als je AI wilt gebruiken voor een chatbot die altijd beleefd moet zijn, moet je niet alleen kijken of hij beleefd is (L1), maar ook of hij de juiste beleefde zinnen gebruikt (L2) en of hij nooit per ongeluk een grove woord gebruikt (L3).
  • De paper laat zien dat we nog niet zo ver zijn. We kunnen de AI wel sturen in de grote lijnen, maar de fijne details zijn nog een zwakke plek.

Conclusie

SteerEval is als een nieuwe rijbewijstest voor AI. Het laat zien dat een AI misschien een "rijbewijs" heeft voor het rijden op een lege weg (L1), maar nog niet klaar is om door een drukke stad te rijden met specifieke verkeersregels (L3).

De boodschap is helder: We moeten stoppen met denken dat we AI volledig onder controle hebben. We moeten begrijpen waar de grenzen liggen, zodat we veilige en betrouwbare systemen kunnen bouwen die niet alleen "goed" klinken, maar ook precies doen wat we nodig hebben, tot in de kleinste details.