Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

Dit artikel introduceert Agentic Predictor, een lichtgewicht model dat gebruikmaakt van multi-view codering en cross-domein pretraining om de prestaties van LLM-gebaseerde agentische workflows nauwkeurig te voorspellen en zo de noodzaak voor kostbare experimentele evaluaties aanzienlijk vermindert.

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex bedrijf wilt bouwen. Je hebt niet één werknemer, maar een heel team van slimme robots (de "agenten") die samenwerken om moeilijke taken op te lossen, zoals het schrijven van code, het oplossen van wiskundeproblemen of het beantwoorden van vragen.

Het probleem is: hoe bouw je het perfecte team?

Je kunt niet zomaar willekeurig mensen aan elkaar koppelen. Soms werken twee robots goed samen, soms praten ze langs elkaar heen, en soms gebruiken ze de verkeerde gereedschappen. Om het perfecte team te vinden, proberen onderzoekers vaak duizenden verschillende combinaties uit. Maar dat is als het proberen van duizenden verschillende recepten voor een taart door ze allemaal daadwerkelijk te bakken en te proeven. Het kost enorm veel tijd, geld en energie (vooral omdat elke "proef" een dure computerberekening vereist).

Dit paper introduceert een slimme oplossing: Agentic Predictor.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Proefbakker" vs. De "Proefbakker"

  • De oude manier (Het bakken): Je probeert een nieuw team samen te stellen, laat ze de taak uitvoeren, kijkt of het lukt, en herhaalt dit duizenden keren. Dit is duur en traag.
  • De nieuwe manier (Agentic Predictor): Je hebt een super-slimme voorspeller (een soort "proefbakker" die nooit hoeft te bakken). Deze voorspeller kan naar de plannen van een team kijken en zeggen: "Hey, dit team zal waarschijnlijk slagen!" of "Nee, dit team gaat vastlopen."

2. Hoe ziet deze "voorspeller" eruit? (De Drie Brillen)

De voorspeller is niet dom; hij kijkt naar een team door drie verschillende brillen tegelijk, net zoals een detective die een zaak oplost:

  1. De Bril van de Architect (Grafiek): Hij kijkt naar de structuur. Wie praat met wie? Is het een hiërarchie of een kring? (Net als het bekijken van een organigram).
  2. De Bril van de Schrijver (Tekst/Prompts): Hij leest de instructies die de robots krijgen. Wat zeggen ze precies tegen elkaar? (Net als het lezen van de scriptjes van acteurs).
  3. De Bril van de Mechanicus (Code): Hij kijkt naar de daadwerkelijke code en gereedschappen die de robots gebruiken. (Net als het bekijken van de motor van een auto).

Door deze drie perspectieven samen te nemen, begrijpt de voorspeller het team veel beter dan als hij alleen naar de structuur zou kijken.

3. Het "Oefenboek" (Zonder Antwoorden)

Een groot probleem is dat er weinig "antwoorden" zijn om de voorspeller te leren. Je kunt niet 10.000 teams laten werken om te zien welke winnen, want dat kost te veel geld.

De oplossing? Oefenen zonder antwoorden.
De voorspeller leert eerst op een enorme hoeveelheid "oefenmateriaal" (duizenden teamplannen) zonder te weten of ze winnen of verliezen. Hij leert gewoon hoe teams eruitzien, hoe ze praten en hoe ze werken. Dit is alsof een kok duizenden recepten leest en de ingrediënten bestudeert, zonder dat hij ze hoeft te koken.

Pas daarna krijgt hij een klein aantal echte voorbeelden (met wel/niet geslaagd) om zijn voorspellingen te verfijnen. Hierdoor wordt hij extreem goed, zelfs met heel weinig echte testresultaten.

4. Waarom is dit geweldig?

  • Snelheid: In plaats van dagen te wachten op testresultaten, geeft de voorspeller een advies in milliseconden.
  • Kostenbesparing: Je hoeft niet duizenden dure computerberekeningen te doen. Je doet alleen de tests voor de teams die de voorspeller als "beloftevol" heeft geselecteerd.
  • Slimmer: Het paper laat zien dat deze methode beter werkt dan eerdere methoden die alleen naar de structuur keken. Ze vinden sneller de beste teams.

Samenvattend

Stel je voor dat je op zoek bent naar de beste auto voor een lange reis.

  • De oude manier: Je bouwt 1000 auto's, rijdt ze allemaal een rondje, en kijkt welke het snelst is. (Dure en tijdrovende methode).
  • Agentic Predictor: Je hebt een expert die naar de blauwdrukken, de motor specificaties en de bestuurdersinstructies kijkt. Hij zegt direct: "Die auto daar? Die gaat het snelst." En hij heeft dit geleerd door naar duizenden andere blauwdrukken te kijken, zonder dat hij ooit zelf heeft gereden.

Dit paper introduceert dus een slimme, snelle en goedkope manier om het perfecte team van AI-robots te vinden, zodat we minder tijd en geld verspillen aan het uitproberen van slechte ideeën.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →