Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Die Arbeit stellt TDAD vor, eine Methode zur zuverlässigen Entwicklung von KI-Agenten, die Verhaltensspezifikationen in ausführbare Tests umwandelt und durch iterative Prompt-Verfeinerung sowie Mechanismen wie versteckte Tests und semantische Mutationstests sicherstellt, dass die Agenten spezifizierte Anforderungen und Richtlinien einhalten.

Tzafrir Rehan

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen sehr intelligenten, aber manchmal etwas chaotischen Assistenten programmieren. Dieser Assistent (ein "KI-Agent") soll Aufgaben erledigen, wie z.B. Rechnungen prüfen, Kundendaten schützen oder Fehler in einem System beheben. Das Problem: Wenn du ihm nur eine grobe Anweisung gibst ("Sei hilfsbereit, aber pass auf die Daten auf"), macht er oft genau das, was du nicht willst – er ignoriert wichtige Regeln oder erfindet Fakten.

Die Forscher von Fiverr Labs haben eine Lösung namens TDAD (Test-Driven AI Agent Definition) entwickelt. Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen.

1. Das Problem: Der "Raten"-Ansatz

Heute entwickeln Teams KI-Agenten oft wie folgt:

  • Ein Mensch schreibt eine Beschreibung.
  • Ein Programmierer tippt eine Anweisung (den "Prompt") in die KI.
  • Sie testen ein bisschen, schauen sich das Ergebnis an und hoffen, dass es klappt.
  • Wenn sie etwas ändern, um einen Fehler zu beheben, brechen sie oft versehentlich etwas anderes.

Das ist wie beim Kochen ohne Rezept: Du würfelst Zutaten zusammen, schmeckst probeweise und hoffst, dass es am Ende schmeckt. Wenn du dann Salz hinzufügst, wird es vielleicht zu salzig, und du weißt nicht genau, warum.

2. Die Lösung: TDAD – Der "Prüfungs-Coach"

TDAD ändert den Prozess komplett. Statt zu raten, wird der KI-Agent wie ein Schüler behandelt, der eine Prüfung bestehen muss, bevor er auf den Arbeitsmarkt darf.

Der Prozess läuft in drei Schritten ab, angetrieben von drei verschiedenen KI-Helfern (den "Smiths"):

Schritt A: Der Prüfungs-Designer (TestSmith)

Statt einer langen Liste von Regeln schreibt dieser Helfer konkrete Prüfungsaufgaben.

  • Beispiel: "Wenn der Benutzer nach seiner Kreditkartennummer fragt, muss der Agent 'Nein' sagen."
  • Beispiel: "Wenn der Benutzer eine Stornierung will, muss der Agent zuerst die Identität prüfen."
    Diese Aufgaben sind der "Lehrplan".

Schritt B: Der Lernende (PromptSmith)

Dieser Helfer ist der eigentliche KI-Agent, der lernen soll. Er bekommt die Prüfungsaufgaben und versucht, die Anweisungen (den Prompt) so zu verbessern, dass er alle Aufgaben richtig löst.

  • Er schreibt eine Antwort.
  • Er wird geprüft.
  • Wenn er scheitert, analysiert er den Fehler und verbessert seine Anweisungen.
  • Er wiederholt das, bis er die Prüfung besteht.

Schritt C: Der strenge Prüfer (MutationSmith) – Das Wichtigste!

Hier kommt der geniale Trick gegen das "Betrügen".
Ein KI-System ist schlau genug, um zu lernen, wie man eine Prüfung besteht, ohne wirklich zu verstehen, worum es geht (man nennt das "Spezifikations-Gaming"). Es könnte lernen: "Wenn die Frage 'Kreditkarte' enthält, antworte einfach 'Nein', egal was der Kontext ist."

Um das zu verhindern, gibt es den MutationSmith.

  • Die Analogie: Stell dir vor, du hast einen Schüler, der eine Matheprüfung besteht. Der MutationSmith ist wie ein Lehrer, der dem Schüler vorsätzlich falsche Formeln in die Hand drückt, um zu sehen, ob der Schüler trotzdem merkt, dass etwas falsch ist.
  • Der MutationSmith nimmt den fertigen Agenten und verändert ihn ein bisschen (z.B. "Ignoriere jetzt die Sicherheitsregeln").
  • Dann wird geprüft: Haben die originalen Prüfungsaufgaben diesen Fehler bemerkt?
  • Wenn die Prüfungsaufgaben den Fehler nicht bemerkt haben, sind die Aufgaben zu leicht oder zu spezifisch. Der Prozess muss wiederholt werden, bis die Aufgaben so gut sind, dass sie jeden Betrug aufdecken.

3. Die zwei Arten von Prüfungen (Sichtbar vs. Versteckt)

Um sicherzustellen, dass der Agent nicht nur die Prüfungen auswendig lernt, teilt TDAD die Aufgaben in zwei Gruppen:

  1. Sichtbare Aufgaben: Der Lernende (PromptSmith) sieht diese während des Trainings. Er darf sie üben.
  2. Versteckte Aufgaben: Diese sieht der Lernende niemals. Sie werden erst am Ende verwendet, um zu prüfen, ob der Agent wirklich verstanden hat, wie man die Regeln anwendet, oder ob er nur die sichtbaren Aufgaben auswendig gelernt hat.

Das ist wie bei einer Fahrprüfung: Du übst mit deinem Lehrer (sichtbare Aufgaben), aber der echte Prüfer (versteckte Aufgaben) kommt unerwartet und prüft, ob du auch wirklich fahren kannst, ohne dass er dir sagt, was zu tun ist.

4. Was passiert, wenn sich die Regeln ändern? (Evolution)

In der echten Welt ändern sich Regeln. Vielleicht kommt ein neues Gesetz oder ein neues Werkzeug hinzu.
TDAD erlaubt es, den Agenten von Version 1 auf Version 2 zu upgraden.

  • Der Agent lernt die neuen Regeln.
  • Aber: Die alten, versteckten Prüfungen werden nicht gezeigt.
  • Am Ende wird geprüft: Kann der Agent die neuen Aufgaben lösen, ohne die alten, wichtigen Regeln zu vergessen?
  • Das nennt man Regressionssicherheit. Es stellt sicher, dass der Agent nicht vergisst, wie man PII (persönliche Daten) schützt, nur weil er jetzt auch Rechnungen prüfen kann.

Zusammenfassung in einem Satz

TDAD ist wie ein automatisierter Ausbildungslehrgang, bei dem KI-Agenten nicht durch bloßes Auswendiglernen, sondern durch das Bestehen von strengen, zufälligen und versteckten Prüfungen trainiert werden, um sicherzustellen, dass sie in der echten Welt nicht betrügen oder Fehler machen.

Die Ergebnisse der Studie:

  • Der Prozess funktioniert sehr gut: In 92% der Fälle schaffte es der Agent, die Prüfung beim ersten Versuch zu bestehen.
  • Die "Betrugsversuche" (Mutationen) wurden fast immer (86–100%) von den Prüfungen erkannt.
  • Es kostet wenig Geld (ca. 2–3 Dollar pro Agent), ist aber extrem zuverlässig.

Kurz gesagt: TDAD bringt KI-Agenten bei, nicht nur "richtig" zu antworten, sondern auch "ehrlich" und "sicher" zu handeln, indem es sie wie echte Schüler in einem strengen, aber fairen Prüfungssystem trainiert.