Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex bedrijf wilt bouwen. Je hebt niet één werknemer, maar een heel team van slimme robots (de "agenten") die samenwerken om moeilijke taken op te lossen, zoals het schrijven van code, het oplossen van wiskundeproblemen of het beantwoorden van vragen.

Het probleem is: hoe bouw je het perfecte team?

Je kunt niet zomaar willekeurig mensen aan elkaar koppelen. Soms werken twee robots goed samen, soms praten ze langs elkaar heen, en soms gebruiken ze de verkeerde gereedschappen. Om het perfecte team te vinden, proberen onderzoekers vaak duizenden verschillende combinaties uit. Maar dat is als het proberen van duizenden verschillende recepten voor een taart door ze allemaal daadwerkelijk te bakken en te proeven. Het kost enorm veel tijd, geld en energie (vooral omdat elke "proef" een dure computerberekening vereist).

Dit paper introduceert een slimme oplossing: Agentic Predictor.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Proefbakker" vs. De "Proefbakker"

De oude manier (Het bakken): Je probeert een nieuw team samen te stellen, laat ze de taak uitvoeren, kijkt of het lukt, en herhaalt dit duizenden keren. Dit is duur en traag.
De nieuwe manier (Agentic Predictor): Je hebt een super-slimme voorspeller (een soort "proefbakker" die nooit hoeft te bakken). Deze voorspeller kan naar de plannen van een team kijken en zeggen: "Hey, dit team zal waarschijnlijk slagen!" of "Nee, dit team gaat vastlopen."

2. Hoe ziet deze "voorspeller" eruit? (De Drie Brillen)

De voorspeller is niet dom; hij kijkt naar een team door drie verschillende brillen tegelijk, net zoals een detective die een zaak oplost:

De Bril van de Architect (Grafiek): Hij kijkt naar de structuur. Wie praat met wie? Is het een hiërarchie of een kring? (Net als het bekijken van een organigram).
De Bril van de Schrijver (Tekst/Prompts): Hij leest de instructies die de robots krijgen. Wat zeggen ze precies tegen elkaar? (Net als het lezen van de scriptjes van acteurs).
De Bril van de Mechanicus (Code): Hij kijkt naar de daadwerkelijke code en gereedschappen die de robots gebruiken. (Net als het bekijken van de motor van een auto).

Door deze drie perspectieven samen te nemen, begrijpt de voorspeller het team veel beter dan als hij alleen naar de structuur zou kijken.

3. Het "Oefenboek" (Zonder Antwoorden)

Een groot probleem is dat er weinig "antwoorden" zijn om de voorspeller te leren. Je kunt niet 10.000 teams laten werken om te zien welke winnen, want dat kost te veel geld.

De oplossing? Oefenen zonder antwoorden.
De voorspeller leert eerst op een enorme hoeveelheid "oefenmateriaal" (duizenden teamplannen) zonder te weten of ze winnen of verliezen. Hij leert gewoon hoe teams eruitzien, hoe ze praten en hoe ze werken. Dit is alsof een kok duizenden recepten leest en de ingrediënten bestudeert, zonder dat hij ze hoeft te koken.

Pas daarna krijgt hij een klein aantal echte voorbeelden (met wel/niet geslaagd) om zijn voorspellingen te verfijnen. Hierdoor wordt hij extreem goed, zelfs met heel weinig echte testresultaten.

4. Waarom is dit geweldig?

Snelheid: In plaats van dagen te wachten op testresultaten, geeft de voorspeller een advies in milliseconden.
Kostenbesparing: Je hoeft niet duizenden dure computerberekeningen te doen. Je doet alleen de tests voor de teams die de voorspeller als "beloftevol" heeft geselecteerd.
Slimmer: Het paper laat zien dat deze methode beter werkt dan eerdere methoden die alleen naar de structuur keken. Ze vinden sneller de beste teams.

Samenvattend

Stel je voor dat je op zoek bent naar de beste auto voor een lange reis.

De oude manier: Je bouwt 1000 auto's, rijdt ze allemaal een rondje, en kijkt welke het snelst is. (Dure en tijdrovende methode).
Agentic Predictor: Je hebt een expert die naar de blauwdrukken, de motor specificaties en de bestuurdersinstructies kijkt. Hij zegt direct: "Die auto daar? Die gaat het snelst." En hij heeft dit geleerd door naar duizenden andere blauwdrukken te kijken, zonder dat hij ooit zelf heeft gereden.

Dit paper introduceert dus een slimme, snelle en goedkope manier om het perfecte team van AI-robots te vinden, zodat we minder tijd en geld verspillen aan het uitproberen van slechte ideeën.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) hebben de ontwikkeling van agentische systemen mogelijk gemaakt die complexe, meerstaps taken autonoom kunnen uitvoeren. Het optimaliseren van deze systemen is echter uitdagend vanwege de enorme zoekruimte aan configuraties, prompt-strategieën en communicatiepatronen.

Huidige beperkingen: Bestaande methoden vertrouwen vaak op heuristiek of exhaustieve evaluatie (trial-and-error). Dit vereist dat elke kandidaat-workflow volledig wordt uitgevoerd via dure LLM-API-calls, wat rekenkundig extreem kostbaar en tijdrovend is.
Uitdagingen:
1. Heterogeniteit: Agentische workflows variëren sterk in structuur, prompts en toolgebruik, wat het leren van een unificerend voorspellend model moeilijk maakt.
2. Schaarste aan gelabelde data: Het genereren van labels (succes/falen) door workflows uit te voeren is te duur om grote datasets voor supervised learning te creëren.

Methodologie: Agentic Predictor

De auteurs stellen Agentic Predictor voor, een lichtgewicht voorspellend framework dat de prestaties van kandidaat-workflows schat zonder ze volledig uit te hoeven voeren. Het framework bestaat uit drie hoofdblokken:

1. Multi-View Workflow Encoding

In plaats van alleen te vertrouwen op grafische structuren (zoals DAGs), encodeert het systeem workflows vanuit drie complementaire perspectieven om een rijke, gestructureerde representatie te vormen:

Graph View: Modelleert de structurele afhankelijkheden en directe interacties tussen agenten (topologie).
Code View: Encodeert de semantiek van de implementatie, inclusief controleflow, logische sequenties en tool-gebruikspatronen.
Prompt View: Vangt de semantische betekenis van systeem- en instructieprompts, inclusief rollen en gedragspecificaties.
Deze views worden verwerkt door gespecialiseerde encoders (GNN voor grafen, MLP voor code en prompts) en vervolgens geaggregeerd tot een gezamenlijke latent representatie ( $Z$ ).

2. Cross-Domain Unsupervised Pretraining (Agentic Predictor+)

Om het probleem van gebrek aan gelabelde data aan te pakken, introduceert het paper een pretrain-fase:

Het model wordt voorgeprogrammeerd op een groot corpus van ongelabelde workflows uit diverse domeinen.
Er worden twee doelen gebruikt: Reconstructie (het herconstrueren van de input views vanuit de latent space) en Contrastive Learning (het leren dat views van dezelfde workflow dicht bij elkaar liggen in de vectorruimte, terwijl views van verschillende workflows ver uit elkaar liggen).
Dit zorgt voor robuuste, generaliseerbare representaties voordat het model wordt gefinetuned op een klein aantal gelabelde voorbeelden.

3. Performance Predictor & Search

Na pretraining wordt een lichtgewicht voorspeller (bijv. een MLP) getraind op een kleine dataset van (workflow, taak, prestatie)-paren. Deze predictor schat de kans op succes (Pass/Fail) of een scorescore. Tijdens de zoektocht naar de beste workflow worden kandidaten eerst door de predictor gescoord; alleen de veelbelovende kandidaten worden daadwerkelijk uitgevoerd, wat de zoekkosten drastisch verlaagt.

Belangrijkste Bijdragen

Multi-View Encoding: Een nieuw schema dat grafische structuur, code-semantiek en prompt-inhoud combineert, wat leidt tot betere voorspellende prestaties dan single-view benaderingen.
Cross-Domain Pretraining: Een strategie om de schaarste aan gelabelde data te overwinnen door ongelabelde workflows uit gerelateerde domeinen te gebruiken voor self-supervised learning.
Agentic Predictor Framework: Een unificerend systeem dat de bovenstaande componenten combineert om de kosten van het ontwerpen van agentische workflows te verlagen.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat het framework zowel nauwkeuriger is dan bestaande baselines (zoals GCN, GAT, Graph Transformers) als dat het leidt tot betere workflow-utility.

Resultaten

De evaluatie vond plaats op de FLORA-Bench benchmark, bestaande uit drie domeinen: Code Generatie, Wiskunde en Redeneren.

Nauwkeurigheid: Agentic Predictor behaalde een gemiddelde nauwkeurigheid van 79.97%, wat een verbetering is van 2.05% tot 6.90% ten opzichte van de sterkste bestaande baselines.
Utility: Het model verbeterde de "utility" (de mate waarin het model de beste workflows correct rankt) met 3.79% tot 5.87%.
Data-efficiëntie: Met de pretrain-fase (Agentic Predictor+) behield het model hoge nauwkeurigheid zelfs bij zeer kleine label-ratio's (0.1), terwijl andere modellen sterk degradeerden.
Kostenbesparing: In vergelijking met few-shot LLM-predictors (zoals GPT-4 of Claude) is Agentic Predictor aanzienlijk goedkoper en sneller. Het kost slechts ~0.054ms per sample tegenover duizenden milliseconden en hoge API-kosten voor LLM's.
Generalisatie: Het model toonde sterke prestaties bij Out-of-Distribution (OOD) testen, waarbij het werd getraind op het ene framework (bijv. AFlow) en getest op een ander (bijv. G-Designer).

Significantie

Dit paper biedt een paradigmaverschuiving in het ontwerp van LLM-based agentische systemen. Door te verschuiven van dure, uitvoeringsgebaseerde evaluatie naar een voorspellingsgebaseerde aanpak, maakt het de automatisering van workflow-ontwerp haalbaar en economisch. De combinatie van multi-view representaties en onbewaakte pretraining lost fundamentele problemen op rond heterogeniteit en datatekort. Dit stelt onderzoekers en ontwikkelaars in staat om sneller en goedkoper optimale agentische workflows te vinden, wat essentieel is voor de schaalbaarheid van complexe AI-systemen in de praktijk.