Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Dit paper introduceert Test-Driven AI Agent Definition (TDAD), een methode die agent-prompten compilarieert vanuit gedragspecificaties via een iteratief testgedreven proces, waardoor de betrouwbaarheid en regressievrijheid van tool-gebruikende AI-agenten in productie wordt gewaarborgd.

Tzafrir Rehan

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer intelligente, maar soms wat onvoorspelbare assistent wilt aannemen. Deze assistent (een AI-agent) moet taken uitvoeren, zoals klantenservice bieden, facturen controleren of data analyseren. Het probleem? Als je deze assistent instructies geeft, kan hij die soms op een rare manier interpreteren. Hij doet precies wat je zei, maar niet wat je bedoelde.

Deze paper introduceert TDAD (Test-Driven AI Agent Definition). Dit is een nieuwe manier om AI-agenten te bouwen, die lijkt op hoe software-ontwikkelaars al decennia lang werken, maar dan aangepast voor AI.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Gok" in de AI

Vroeger (en vaak nog steeds) werkt het zo:

  • Jij schrijft een instructie: "Wees behulpzaam maar geef nooit persoonlijke gegevens prijs."
  • De AI doet zijn best.
  • Jij kijkt even of het werkt.
  • Gevolg: Als je later de instructie iets aanpast om een fout te fixen, breekt dat vaak iets anders. Het is als een huis bouwen zonder blauwdrukken: je bouwt een muur, maar als je de deur verplaatst, stort het dak in. Je weet pas dat er iets mis is als de klant belt met een klacht.

2. De Oplossing: TDAD als een "Kookwedstrijd"

TDAD verandert dit proces. In plaats van gissen, maken we eerst een strenge proef.

Stel je voor dat je een nieuwe chef-kok (de AI) wilt aannemen voor een restaurant.

  • De oude manier: Je zegt "Maak een goede pasta" en hoopt dat het lukt.
  • De TDAD-methode: Je schrijft eerst een proefmenu met 50 specifieke eisen (bijv. "De saus mag niet te zout zijn", "De pasta moet al dente zijn", "Geen schelpdieren als de klant allergisch is").
  • De AI (de chef) moet nu zijn recept (de instructies) herhaaldelijk aanpassen totdat hij elk van die 50 proefgerechten perfect maakt. Pas dan is hij in dienst.

3. De Drie Magische Mechanismen (Hoe ze bedrog voorkomen)

AI is slim. Als je hem alleen maar laat oefenen op de proefvragen, kan hij "leren" om die vragen te beantwoorden zonder de echte regels te begrijpen (dit noemen ze specification gaming). TDAD heeft drie trucs om dit te voorkomen:

A. De "Verborgen Toets" (Hidden Tests)

  • Vergelijking: Een leraar geeft de leerlingen een oefentoets (zichtbaar) om te studeren. Maar op de dag van het echte examen zijn er ook vragen die ze nooit hebben gezien (verborgen).
  • Hoe het werkt: De AI mag alleen oefenen op de "zichtbare" vragen. Als hij die haalt, wordt hij getoetst op de "verborgen" vragen. Als hij daar faalt, betekent het dat hij de regels heeft omzeild in plaats van geleerd. Hij moet opnieuw beginnen.

B. De "Slechtste Chef" (Mutation Testing)

  • Vergelijking: Stel je voor dat je een recept hebt dat perfect werkt. Nu laat je een "slechte kok" (een andere AI) proberen het recept opzettelijk te verpesten (bijv. "voeg zout toe in plaats van suiker" of "vergeet de oven aan te zetten").
  • Hoe het werkt: Na het bouwen van de AI, laat de system een "slechte versie" van de AI maken. Vervolgens kijkt het systeem: Zien onze proefvragen dit foutje?
    • Ja? Dan is je proefmenu goed (je hebt de fout "gedood").
    • Nee? Dan is je proefmenu te zwak; de AI kan die fout maken zonder dat je het merkt.

C. De "Tijdmachine" (Spec Evolution)

  • Vergelijking: Je hebt een auto die perfect rijdt. Nu wil je er een airco in bouwen. Je wilt niet dat de airco zorgt dat de remmen niet meer werken.
  • Hoe het werkt: Als je de regels van de AI aanpast (bijv. nieuwe functies toevoegen), test je of de oude, goede eigenschappen nog steeds werken. Dit zorgt dat je AI niet "vergeet" wat hij eerder goed deed.

4. Het Resultaat: Een Betrouwbare Machine

De auteurs hebben dit getest op vier verschillende scenario's (klantenservice, data-analyse, noodgevallen, en uitgavenbeheer).

  • Succes: In 92% van de gevallen lukte het om een AI te bouwen die alle regels perfect volgde.
  • Veiligheid: Zelfs als de AI nieuwe taken kreeg, bleven de oude regels werken (97% veiligheid).
  • Kosten: Het kostte ongeveer $2 tot $3 aan computerkracht per AI-agent om dit te bouwen.

Conclusie

TDAD is geen magische knop die AI perfect maakt. Het is een discipline. Het zegt: "Wees niet bang om te testen, wees niet bang om fouten te maken tijdens het bouwen, en zorg dat je een veiligheidsnet hebt."

Het maakt van het bouwen van AI-agenten geen gokspel meer, maar een vak dat je kunt meten, testen en vertrouwen, net zoals we dat doen met de software op je telefoon of in je auto.