Agentic Critical Training

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapiers „Agentic Critical Training" (ACT), verpackt in eine Geschichte aus dem Alltag.

Das Problem: Der blinde Nachahmer

Stell dir vor, du möchtest einem Roboter beibringen, wie man ein Haus putzt.
Die herkömmliche Methode (die Forscher Imitationslernen nennen) ist wie ein strenger Tanzlehrer, der nur die perfekten Bewegungen zeigt. Der Roboter schaut zu und kopiert jede Geste genau.

Das Problem: Der Roboter weiß nur, was er tun muss, aber nicht warum. Wenn er mal einen Fehler macht (z. B. versucht, einen schweren Tisch zu heben, obwohl er zu schwer ist), weiß er nicht, dass es eine bessere Alternative gab. Er hat keine Ahnung von „Qualität". Er ist wie ein Schüler, der die Formel auswendig gelernt hat, aber nicht versteht, warum sie funktioniert. Wenn sich die Situation ändert, ist er verloren.

Ein neuerer Ansatz (genannt „Early Experience") versucht, dem Roboter beizubringen, über seine Fehler nachzudenken. Aber auch hier gibt es einen Haken: Der Roboter muss einen fertigen Text auswendig lernen, in dem ein Experte erklärt, warum ein Fehler schlecht war. Er lernt also nur, die Worte des Experten zu wiederholen, nicht wirklich selbst zu denken.

Die Lösung: ACT – Der kritische Trainer

Die Autoren schlagen Agentic Critical Training (ACT) vor. Stell dir das wie einen Schiedsrichter oder einen Tastatur-Trainer vor, der nicht den perfekten Weg zeigt, sondern zwei Optionen vergleicht.

Die Analogie: Der Koch-Test
Stell dir vor, du bist ein Koch-Lehrling.

Der alte Weg: Der Chef kocht ein perfektes Steak. Du schaut zu und machst es genau so. Wenn du das Steak verbrannt hast, weißt du nicht, warum, weil du nur das perfekte Ergebnis gesehen hast.
Der neue Weg (ACT): Der Chef gibt dir zwei Töpfe. In Topf A ist das perfekte Steak (vom Experten). In Topf B ist dein Versuch (oder ein schlechter Versuch eines anderen).
- Der Chef fragt dich nicht: „Kopiere Topf A!"
- Er fragt dich: „Welcher Topf ist besser und WARUM?"

Du musst jetzt selbst denken: „Topf B ist verbrannt, weil das Feuer zu heiß war. Topf A ist perfekt, weil er die richtige Temperatur hatte."
Du wirst belohnt, wenn du richtig entscheidest, nicht dafür, dass du einen bestimmten Text aufschreibst. Du musst also dein eigenes Gehirn nutzen, um die Qualität zu beurteilen.

Wie funktioniert das technisch? (Vereinfacht)

Der Vergleich: Das System nimmt einen perfekten Schritt eines Experten und einen zufälligen, oft schlechten Schritt des Roboters.
Die Frage: Der Roboter bekommt beide Schritte gezeigt und muss sagen: „Welcher ist besser?"
Der Lernprozess: Da der Roboter nur dafür belohnt wird, wenn er die richtige Wahl trifft (und nicht dafür, einen Text zu kopieren), muss er selbstständig lernen, worauf es ankommt. Er entwickelt ein inneres Gefühl für Qualität. Er lernt, wie ein erfahrener Kritiker zu denken.
Das Ergebnis: Wenn der Roboter später eine Aufgabe lösen muss, nutzt er diese Fähigkeit. Er denkt: „Wenn ich das hier tue, passiert das Schlimme. Wenn ich das andere tue, klappt es." Er denkt also kritisch, bevor er handelt.

Warum ist das so cool? (Die Überraschungen)

Die Forscher haben drei Dinge entdeckt, die fast magisch klingen:

Bessere Fehlerbehebung: Wenn der Roboter in einer neuen Situation steckt (z. B. ein Möbelstück ist woanders als erwartet), gibt der alte Roboter auf oder macht denselben Fehler immer wieder. Der ACT-Roboter denkt: „Moment, das funktioniert nicht. Ich muss einen anderen Weg gehen." Er kann sich selbst korrigieren.
Übertragung auf andere Fächer: Das ist der spannendste Teil. Die Roboter wurden nur trainiert, Hausaufgaben zu machen (Tische zu schieben, im Internet zu shoppen). Sie haben nie Mathe oder Physik gelernt.
- Aber: Als man sie danach in Mathe-Tests steckte, waren sie plötzlich besser darin, logische Probleme zu lösen!
- Warum? Weil sie gelernt haben, zwischen guten und schlechten Lösungen zu unterscheiden. Diese Fähigkeit, Dinge zu vergleichen und zu kritisieren, hilft ihnen auch beim Lösen von Matheaufgaben. Es ist, als würde jemand, der gelernt hat, gute und schlechte Schachzüge zu erkennen, plötzlich auch besser im Lösen von Rätseln ist.
Kein Auswendiglernen: Da der Roboter nicht nur Texte kopiert, sondern wirklich versteht, was gut ist, funktioniert er auch in Situationen, die er noch nie gesehen hat (sogenannte „Out-of-Distribution"-Szenarien).

Zusammenfassung in einem Satz

Agentic Critical Training verwandelt KI-Agenten von blinden Kopierern in selbstständige Denker, indem man sie nicht lehrt, was zu tun ist, sondern sie dazu zwingt, selbst zu entscheiden, welche Handlung die bessere ist – und dabei lernen sie, wie man überhaupt richtig denkt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Agentic Critical Training" (ACT) auf Deutsch:

1. Problemstellung

Das Training von autonomen Agenten auf Basis großer Sprachmodelle (LLMs) beginnt häufig mit Imitationslernen (Imitation Learning, IL). Dabei werden Modelle durch überwachtes Fine-Tuning (SFT) darauf trainiert, Expertendemonstrationen nachzuahmen.

Hauptlimitierung: IL lehrt dem Agenten nur, was zu tun ist, nicht aber, warum eine Aktion besser ist als eine andere. Da der Agent nur erfolgreiche Trajektorien sieht, entwickelt er kein Bewusstsein für suboptimale Zustände oder die Qualität von Handlungen.
Grenzen bestehender Ansätze: Ein neuerer Ansatz, „Early Experience" (Zhang et al., 2025a), versucht dies zu korrigieren, indem er das Modell auffordert, Reflexionstexte zu generieren, die den Unterschied zwischen Expert- und Alternativaktionen erklären. Der Nachteil hierbei ist jedoch, dass das Modell weiterhin imitiert: Es lernt, einen vorgefertigten Reflexionstext nachzuahmen (Knowledge Distillation), anstatt autonom zu lernen, wie man über Handlungsgüte urteilt. Die „Selbstreflexion" wird somit kopiert, nicht verstanden.

2. Methodik: Agentic Critical Training (ACT)

Die Autoren schlagen Agentic Critical Training (ACT) vor, ein Reinforcement-Learning-Paradigma (RL), das Agenten trainiert, die bessere Handlung unter Alternativen zu identifizieren, anstatt sie nur zu imitieren.

Der Kernprozess:

Datenerstellung (Data Construction):
- Für jeden Zustand $s_i$ aus einem Expertendatensatz wird eine Expert-Handlung $a^+_i$ genommen.
- Daraus werden $K$ alternative Handlungen $a^-_i$ durch ein initiales Policy-Modell $\pi_{\theta_0}$ gesampelt.
- Es werden Paare aus Expert-Handlung und einer gesampelten Alternativhandlung gebildet, um einen Kontrast-Datensatz $D_{critic}$ zu erstellen.
Trainingspipeline (Zwei Phasen):
- Phase 1: Agentic Critical Training: Das Modell wird mittels GRPO (Group Relative Policy Optimization) trainiert. Es erhält einen Prompt mit zwei Handlungsoptionen (eine Expert-Handlung, eine Alternative, zufällig vertauscht) und muss entscheiden, welche besser ist.
  - Belohnung (Reward): Das Modell erhält eine Belohnung nur, wenn es die korrekte (Expert-)Handlung auswählt. Es gibt keine Aufsicht für den Reflexionstext selbst.
  - Effekt: Da das Modell nur für die korrekte Auswahl belohnt wird, muss es autonom eine Chain-of-Thought (CoT) entwickeln, um die Qualität der Handlungen zu begründen. Dies führt zu „echter" Selbstreflexion statt Imitation.
- Phase 2: RL Action Training: Das durch ACT verbesserte Modell wird anschließend für die direkte Generierung von Aktionen auf Expertendaten weiter trainiert (ebenfalls mit GRPO). Die durch ACT erworbene kritische Urteilsfähigkeit dient als Fundament für eine effizientere Policy-Optimierung.

Belohnungsfunktion:
Die Belohnung setzt sich aus drei Komponenten zusammen:

$R_{acc}$ : Genauigkeit (1.0, wenn die extrahierte Handlung mit der Expert-Handlung übereinstimmt).
$R_{adm}$ : Zulässigkeit (0.1, wenn die Handlung gültig, aber nicht optimal ist).
$R_{fmt}$ : Formatierung (Strafe, wenn keine korrekten <action>-Tags verwendet werden).

3. Wichtige Beiträge

Paradigmenwechsel von Imitation zu kritischem Denken: Im Gegensatz zu „Early Experience", das Reflexionstexte imitiert, zwingt ACT das Modell durch RL, autonom kritisches Denken zu entwickeln, um die beste Handlung zu identifizieren.
Konsistente Leistungssteigerung: ACT verbessert die Leistung von Agenten, wenn es mit verschiedenen Nachtrainingsmethoden (IL und RL) kombiniert wird.
Generalisierungsfähigkeit:
- Out-of-Distribution (OOD): ACT zeigt starke Generalisierung auf unbekannte Umgebungen.
- Allgemeines Reasoning: Überraschenderweise verbessert ACT die Leistung auf allgemeinen Reasoning-Benchmarks (MATH-500, GPQA-Diamond), obwohl es ausschließlich mit Agentendaten trainiert wurde und keine mathematischen oder wissenschaftlichen Reasoning-Daten verwendet wurden.

4. Ergebnisse

Die Evaluation erfolgte auf drei Benchmarks: ALFWorld (embodied tasks), WebShop (Web-Navigation) und ScienceWorld (wissenschaftliche Experimente).

Leistungsvergleich:
- ACT kombiniert mit RL (RL w/ ACT) erzielt die beste Gesamtleistung.
- Im Vergleich zu reinem Imitationslernen (IL) beträgt die durchschnittliche Verbesserung 5,07 Punkte.
- Im Vergleich zu reinem RL beträgt die Verbesserung 4,62 Punkte.
- Im Vergleich zum „Early Experience"-Ansatz (Knowledge Distillation) erzielt ACT einen zusätzlichen Gewinn von 2,42 Punkten.
Fehlerkorrektur (Failure Recovery):
- In Fallstudien (z. B. ALFWorld) zeigen IL-Modelle, die auf Fehlerzustände stoßen, oft eine endlose Schleife (z. B. wiederholtes Ausführen einer gescheiterten Aktion), da sie keinen Mechanismus zur Fehlerdiagnose haben.
- ACT-Modelle nutzen ihre interne Reflexion, um die Ursache des Fehlers zu erkennen (z. B. „Ich bin noch nicht am Schrank") und korrigieren den Pfad erfolgreich.
Transfer auf allgemeine Reasoning-Aufgaben:
- Während IL und „Early Experience" die Reasoning-Fähigkeiten auf Benchmarks wie GPQA-Diamond verschlechtern (Reasoning Collapse), verbessert ACT die Leistung sogar über das Basis-Modell hinaus.
- ACT-Modelle zeigen Verhalten wie Selbstverifikation (z. B. Einsetzen von Antwortoptionen in Gleichungen zur Überprüfung), was auf die Fähigkeit zum kritischen Abwägen zurückzuführen ist.

5. Bedeutung und Fazit

Das Paper zeigt, dass das direkte Trainieren von Modellen zur Bewertung der Handlungsgüte (Action Quality) durch Reinforcement Learning effektiver ist als das Imitieren von Reflexionstexten.

Schlüsselerkenntnis: Das Erlernen der Fähigkeit, Handlungen zu vergleichen und zu kritisieren, dient als universeller Mechanismus, der nicht nur die Agentenleistung in spezifischen Umgebungen steigert, sondern auch die allgemeine logische Schlussfolgerungsfähigkeit (General Reasoning) des LLMs erhält und verbessert.
Zukunftsperspektive: ACT bietet einen vielversprechenden Weg, um robustere, reflektiertere und leistungsfähigere LLM-Agenten zu entwickeln, die in der Lage sind, Fehler zu erkennen und sich anzupassen, anstatt starre Skripte abzuspulen.

Agentic Critical Training

Das Problem: Der blinde Nachahmer

Die Lösung: ACT – Der kritische Trainer

Wie funktioniert das technisch? (Vereinfacht)

Warum ist das so cool? (Die Überraschungen)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Agentic Critical Training (ACT)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers