Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein riesiges, komplexes Team aus KI-Robotern (den sogenannten „Agenten") bauen, um eine schwierige Aufgabe zu lösen – sei es das Schreiben von Software, das Lösen von Matheaufgaben oder das Beantworten von kniffligen Fragen.

Das Problem ist: Es gibt unendlich viele Möglichkeiten, wie man dieses Team aufbauen kann.

Wer spricht mit wem?
Welche Werkzeuge benutzt jeder?
Welche Anweisungen (Prompts) bekommt jeder?

Das alte Problem:
Bisher mussten Forscher jede dieser Millionen von Team-Kombinationen tatsächlich ausprobieren. Sie ließen die KI die Aufgabe lösen, schauten, ob es geklappt hat, und wiederholten das für jede neue Kombination. Das ist wie wenn du versuchst, den perfekten Kuchen zu backen, indem du Tausende von Kuchensorten backst, probierst und dann wegwirfst, nur um zu sehen, welcher am besten schmeckt. Das kostet extrem viel Zeit, Geld (Strom für die KI) und Nerven.

Die neue Lösung: „Agentic Predictor"
Die Autoren dieses Papers haben eine clevere Lösung gefunden: Statt jeden Kuchen backen zu müssen, bauen sie einen super-schnellen „Kuchenduft-Schnüffler".

Hier ist die Erklärung, wie dieser „Schnüffler" funktioniert, mit einfachen Analogien:

1. Der „Multi-Auge"-Blick (Multi-View Encoding)

Stell dir vor, du willst beurteilen, ob ein neues Team gut funktionieren wird. Ein normaler Blick reicht nicht. Du brauchst drei verschiedene Perspektiven gleichzeitig:

Der Bauplan (Graph): Wie sind die Agenten miteinander verbunden? Wer ist der Chef, wer der Assistent? (Wie ein Straßennetz).
Der Code (Die Werkzeuge): Welche Werkzeuge hat das Team im Werkzeugkasten? Können sie gut programmieren oder rechnen? (Wie die Spezifikationen eines Autos).
Die Anweisungen (Prompts): Was genau sagt der Chef den Mitarbeitern? Wie gut sind die Anweisungen formuliert? (Wie die Fahrordnung).

Der neue „Schnüffler" (der Agentic Predictor) schaut sich alle drei Dinge gleichzeitig an. Er kombiniert den Bauplan, die Werkzeuge und die Anweisungen zu einem einzigen, klaren Bild. Das ist wie ein Detektiv, der nicht nur den Tatort betrachtet, sondern auch die Fingerabdrücke und die Aussagen der Zeugen zusammenführt, um sofort zu wissen, ob der Fall gelöst wird.

2. Der „Geheimtipp" aus der Vergangenheit (Unsupervised Pretraining)

Das größte Problem beim Trainieren eines solchen Schnüfflers ist: Man hat kaum Daten darüber, welche Teams wirklich funktionieren, weil das Ausprobieren so teuer ist.

Die Autoren nutzen einen genialen Trick: Vorwissen aus anderen Bereichen.
Stell dir vor, du willst ein Auto bewerten, hast aber nur wenige Testfahrten gemacht. Aber du hast Tausende von Fotos und technischen Zeichnungen von Autos gesehen. Du lernst daraus, wie ein „gutes Auto" aussieht, ohne es jemals gefahren zu haben.

Das macht der „Schnüffler" auch:

Er wird zuerst mit riesigen Mengen an unmarkierten Daten (vielen verschiedenen Team-Entwürfen ohne Ergebnis) trainiert.
Er lernt die Muster: „Aha, wenn Agent A so mit Agent B verbunden ist und diese Anweisung bekommt, sieht das nach einem guten Team aus."
Erst danach wird er mit ein paar wenigen echten Testergebnissen feinjustiert.

Dadurch braucht er viel weniger echte Versuche, um sehr genau zu sein.

3. Der große Gewinn: Schnelligkeit und Geld

Statt Tausende von teuren KI-Läufen zu machen, um das beste Team zu finden, macht der Forscher folgendes:

Er generiert viele Team-Ideen.
Er lässt den Schnüffler (den Predictor) diese Ideen durchschauen.
Der Schnüffler sagt sofort: „Idee A sieht vielversprechend aus, Idee B ist Mist."
Der Forscher testet nur noch die Top-Ideen wirklich.

Das Ergebnis:

Genauigkeit: Der Schnüffler ist besser als alle bisherigen Methoden (die nur auf den Bauplan schauten).
Kosten: Er spart enorme Mengen an Geld und Zeit, weil er die teuren „Backversuche" (das Ausführen der KI) fast komplett ersetzt.
Geschwindigkeit: Die Bewertung dauert Millisekunden, nicht Stunden.

Zusammenfassung in einem Satz

Die Autoren haben einen intelligenten Vorhersage-Algorithmus entwickelt, der wie ein erfahrener Architekt aussieht, der sich einen Bauplan, die Werkzeuge und die Anweisungen eines Teams ansieht und sofort weiß, ob das Team erfolgreich sein wird – ohne dass man das Team erst jahrelang arbeiten lassen muss. Das macht die Entwicklung von KI-Systemen viel schneller, billiger und effizienter.

Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

1. Der „Multi-Auge"-Blick (Multi-View Encoding)

2. Der „Geheimtipp" aus der Vergangenheit (Unsupervised Pretraining)

3. Der große Gewinn: Schnelligkeit und Geld

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Agentic Predictor

A. Multi-View Workflow Encoding (Multi-Ansicht-Kodierung)

B. Cross-Domain Unsupervised Pretraining (Agentic Predictor+)

C. Performance Predictor & Search

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

1. Der „Multi-Auge"-Blick (Multi-View Encoding)

2. Der „Geheimtipp" aus der Vergangenheit (Unsupervised Pretraining)

3. Der große Gewinn: Schnelligkeit und Geld

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Agentic Predictor

A. Multi-View Workflow Encoding (Multi-Ansicht-Kodierung)

B. Cross-Domain Unsupervised Pretraining (Agentic Predictor+)

C. Performance Predictor & Search

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks