AutoHarness: improving LLM agents by automatically synthesizing a code harness

Dit paper introduceert AutoHarness, een methode waarbij een kleiner LLM (Gemini-2.5-Flash) automatisch een code-harness synthetiseert om illegale acties te voorkomen, waardoor het model zelfs grotere modellen zoals Gemini-2.5-Pro en GPT-5.2-High overtreft in diverse TextArena-games.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat ongeduldige robot hebt die je helpt met het spelen van bordspellen. Deze robot (een zogenaamde "LLM" of taalmodel) is briljant in het bedenken van strategieën, maar hij heeft een klein, vervelend gebrek: hij maakt soms domme fouten die tegen de regels zijn.

In het echte leven zou dit zijn als een schaker die probeert met zijn paard over het hele bord te springen, of een voetballer die de bal met zijn hand in het doel probeert te gooien. De robot denkt dat hij slim is, maar hij breekt de regels van het spel.

In dit onderzoek van Google DeepMind hebben ze een oplossing bedacht die ze AutoHarness noemen. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het Probleem: De Ongehoorzame Chef

Stel je voor dat je een chef-kok hebt (de AI) die fantastische recepten bedenkt. Maar deze chef is zo enthousiast dat hij soms ingrediënten gebruikt die niet in de keuken staan, of probeert de oven op 1000 graden te zetten terwijl die alleen tot 250 gaat.

Als je hem dit vertelt, zegt hij: "Oh, sorry!" en probeert hij het opnieuw. Maar hij maakt vaak dezelfde fouten. De traditionele oplossing is om een strenge keukenmanager (een mens) aan te stellen die elke stap controleert voordat de kok iets doet. Maar dat is duur, tijdrovend en voor elk nieuw spel moet je weer een nieuwe manager inhuren.

2. De Oplossing: De Robot die Zelf een Regelboek Schrijft

De onderzoekers wilden geen nieuwe menselijke manager inhuren. In plaats daarvan gaven ze de slimme chef-kok een opdracht: "Schrijf zelf je eigen controlemechanisme!"

Dit is wat ze AutoHarness noemen. Het is alsof je de robot vraagt om een stukje computercode te schrijven dat fungeert als een onverzettelijke poortwachter.

  • De Cyclus: De robot probeert een zet te doen. De poortwachter (het stukje code) kijkt er streng naar.
    • Is de zet legaal? Ja? Dan mag hij spelen.
    • Is de zet illegaal? Nee? Dan zegt de poortwachter: "Nee, dat mag niet!" en stuurt de robot terug met een boodschap: "Probeer het opnieuw, maar doe het niet zo."
  • Het Leren: De robot leert van deze fouten. Hij past zijn eigen code aan. Na een paar keer proberen, schrijft hij een perfecte poortwachter die nooit toestaat dat er een illegale zet wordt gedaan.

3. De "Boom" van Probeer-en-Fout

Hoe vinden ze de perfecte code? Ze gebruiken een slimme zoekmethode die lijkt op het zoeken naar de beste route in een doolhof.
Stel je voor dat je een boom hebt waar elke tak een andere versie van de regels is.

  • Sommige takken zijn slordig (veel fouten).
  • Sommige takken zijn bijna perfect.
    De computer probeert slim uit te zoeken welke tak het meest belooft, en verfijnt die tot hij de perfecte "regelset" heeft gevonden.

4. Het Verbluffende Resultaat: De Kleine Dolfijn vs. de Grote Walvis

Het meest indrukwekkende deel van dit verhaal is wie er wint.
Ze gebruikten een kleinere, snellere en goedkopere versie van de AI (Gemini-2.5-Flash) en lieten deze zijn eigen poortwachter schrijven.

Vervolgens lieten ze deze kleine AI met zijn eigen poortwachter strijden tegen een enorme, superkrachtige AI (Gemini-2.5-Pro) die geen poortwachter had.

Het resultaat? De kleine AI won vaker!
Waarom? Omdat de grote AI vaak domme, illegale zetten maakte en daardoor verloor. De kleine AI, hoewel minder "slim" in het denken, deed nooit iets verbods. Hij speelde altijd volgens de regels, waardoor hij de grote, maar slordige tegenstander versloeg.

5. De Ultieme Stap: De Robot wordt de Speler

In de meest extreme versie van hun experiment, lieten ze de AI niet alleen een poortwachter schrijven, maar schreef hij het hele spelplan in code.
Dit is alsof de robot niet alleen de regels schrijft, maar ook het hele spelprogramma schrijft.

  • Vroeger: De computer moet elke keer een menselijke AI raadplegen om een zet te doen (duur en traag).
  • Nu: De computer heeft een stukje code dat alle zetten al heeft berekend. Het hoeft geen AI meer te raadplegen tijdens het spelen. Het is als een robot die een boekje heeft gemaakt met de perfecte antwoorden, zodat hij het spel in een flits kan spelen zonder na te hoeven denken.

Samenvatting

Kortom, dit onderzoek laat zien dat je een kleinere, goedkopere robot niet hoeft te verslaan door een grotere, duurdere robot te bouwen. Als je de kleinere robot de kans geeft om slim te zijn in het maken van regels (in plaats van alleen in het spelen), kan hij de grote robot verslaan door simpelweg nooit fouten te maken.

Het is een beetje alsof een beginnende schaker die de regels perfect kent, een grootmeester verslaat die soms vergeten is hoe een paard beweegt. De sleutel tot succes is niet alleen slimheid, maar discipline, en in dit geval: de AI die zijn eigen discipline schrijft.