Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Diese Arbeit bietet eine umfassende Übersicht über die Anpassung agenter KI-Systeme nach dem Pre-Training und gliedert den fragmentierten Forschungsstand in ein vierstufiges Rahmenwerk ein, das Agenten- und Werkzeuganpassung durch Methoden wie Feinabstimmung, Verstärkungslernen und adaptive Speichersysteme zusammenführt.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein KI-Agent ist wie ein hochintelligenter, aber noch etwas grüner Handwerker, der komplexe Aufgaben lösen soll. Früher hat man diesen Handwerker nur mit einem detaillierten Bauplan (dem "Prompt") ausgestattet und gehofft, dass er alles richtig macht.

Diese neue Forschungsarbeit sagt jedoch: "Das reicht nicht!" Um wirklich gut zu werden, muss sich der Handwerker entweder selbst weiterbilden oder seine Werkzeuge verbessern. Die Autoren haben eine Landkarte erstellt, die genau beschreibt, wie diese Anpassung passiert. Sie teilen den Prozess in vier einfache Szenarien auf.

Hier ist die Erklärung der vier Wege, wie KI-Agenten lernen, mit einfachen Analogien:

1. Der Handwerker lernt durch direkte Erfahrung (A1)

Das Szenario: Der Handwerker probiert etwas aus, und das Werkzeug gibt ihm sofort ein klares "Ja" oder "Nein".

  • Die Analogie: Stell dir vor, der Handwerker versucht, einen Schalter umzulegen. Wenn der Schalter klickt und das Licht angeht, weiß er sofort: "Das war gut!" Wenn es knistert und nichts passiert, weiß er: "Das war falsch."
  • Was passiert: Der Agent (der Handwerker) wird trainiert, indem er direkt auf die Ergebnisse seiner Aktionen reagiert. Wenn er Code schreibt und der Computer sagt "Fehler", lernt er sofort daraus. Das ist sehr effizient, aber es funktioniert nur, wenn es ein klares, objektives Ergebnis gibt (wie bei Mathe oder Programmieren).

2. Der Handwerker lernt aus dem Endergebnis (A2)

Das Szenario: Der Handwerker muss eine ganze Reise planen. Er weiß erst am Ende, ob er das Ziel erreicht hat, nicht bei jedem einzelnen Schritt.

  • Die Analogie: Ein Handwerker soll ein ganzes Haus bauen. Er kann nicht bei jedem Nagel sofort wissen, ob das Haus stabil ist. Er muss erst das ganze Haus fertigstellen. Wenn das Haus steht, bekommt er eine Belohnung. Wenn es einstürzt, muss er alles neu planen.
  • Was passiert: Der Agent wird nur am Ende bewertet (z. B. "Hast du die richtige Antwort auf die Frage gefunden?"). Das ist schwieriger zu lernen, weil er nicht weiß, welcher einzelne Schritt falsch war. Aber es ist notwendig für komplexe Aufgaben, bei denen es keine klaren "Richtig/Falsch"-Signale gibt.

3. Wir kaufen einfach bessere Werkzeuge (T1)

Das Szenario: Der Handwerker bleibt derselbe, aber wir geben ihm ein besseres Werkzeug in die Hand.

  • Die Analogie: Stell dir vor, dein Handwerker ist fest in seiner Denkweise (er ist ein "frozen" Modell, den man nicht ändern darf). Statt ihn neu zu erziehen, kaufen wir ihm einen neuen, hochmodernen Bohrer oder eine bessere Säge. Der Handwerker muss nicht lernen, wie man bohrt; das Werkzeug ist einfach besser.
  • Was passiert: Wir trainieren die Werkzeuge (wie Suchmaschinen oder Datenbanken) unabhängig vom Agenten. Jeder Agent kann diese Werkzeuge nutzen. Das ist günstig und flexibel, aber der Handwerker selbst wird nicht schlauer.

4. Wir passen die Werkzeuge an den Handwerker an (T2) – Der Game-Changer!

Das Szenario: Wir behalten den Handwerker bei, aber wir schulen seine Werkzeuge so, dass sie genau das tun, was dieser spezifische Handwerker braucht.

  • Die Analogie: Der Handwerker ist ein etwas chaotischer Typ, der gerne lange Reden hält. Statt ihn zu ändern, bauen wir ihm eine spezielle Notizkarte (ein Werkzeug), die genau die Informationen filtert, die er mag, und sie in einer Form präsentiert, die er versteht. Das Werkzeug lernt vom Handwerker: "Aha, wenn ich ihm diese Information gebe, macht er eine gute Arbeit."
  • Was passiert: Der Agent (der Handwerker) bleibt unverändert, aber die Werkzeuge (wie Suchmaschinen oder Gedächtnis-Systeme) werden so trainiert, dass sie perfekt mit ihm zusammenarbeiten.
  • Warum das genial ist: Es ist viel billiger und schneller! Statt den riesigen Handwerker neu zu erziehen (was extrem teuer ist), trainieren wir nur das kleine Werkzeug. Das ist wie ein Assistent, der lernt, wie sein Chef tickt.

Zusammenfassung: Was bedeutet das für die Zukunft?

Die Autoren sagen uns, dass wir nicht mehr nur versuchen müssen, den "großen Kopf" (das KI-Modell) immer größer und schlauer zu machen. Stattdessen sollten wir:

  1. Den Kopf stabil halten: Lass den großen KI-Modell-Handwerker in Ruhe (er ist teuer und schwer zu ändern).
  2. Die Werkzeuge schlau machen: Baue ein Ökosystem aus spezialisierten Werkzeugen, die sich an den Handwerker anpassen (T2).
  3. Gedächtnis und Skills nutzen: Das Werkzeug kann auch ein "Gedächtnis" sein, das lernt, was der Handwerker in der Vergangenheit gut gemacht hat, oder ein "Skill-Buch", das ihm zeigt, wie man bestimmte Dinge tut.

Die große Erkenntnis:
Die Zukunft liegt nicht in einem einzigen, riesigen, alles-könnenden Roboter. Sie liegt in einem stabilen Kern (dem großen KI-Modell), der von einem sich ständig weiterentwickelnden Team aus spezialisierten Werkzeugen und Assistenten unterstützt wird. Diese Werkzeuge lernen dazu, passen sich an und machen den Handwerker effizienter, ohne dass man den teuren Kern jedes Mal neu erfinden muss.

Es ist wie der Unterschied zwischen einem einzelnen Superhelden, der alles alleine macht, und einem Captain America, der ein Team aus spezialisierten Spezialisten (Iron Man, Hulk, Black Widow) führt, die sich perfekt aufeinander abstimmen.