EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat ongeduldige assistent hebt die een complexe taak voor je moet uitvoeren, zoals het boeken van een complete vakantie met vluchten, hotels en activiteiten. Deze assistent is een LLM-agent (een taalmodel) en hij heeft een gereedschapskist vol met digitale tools om zijn werk te doen.

Het probleem is: soms lukt het niet. De assistent kiest de verkeerde tool, gebruikt de verkeerde gegevens, of slaat een stap over. En als hij faalt, krijg je vaak pas aan het einde te horen: "Het is mislukt." Je weet niet waar het precies fout ging. Was het de planning? De keuze van de tool? Of de manier waarop hij de resultaten samenvatte?

Dit is waar EVOTOOL om de hoek komt kijken. Het is een slim systeem dat deze assistent zelf laat evolueren en verbeteren, zonder dat mensen handmatig elke regel code moeten herschrijven.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Assistent in Vier Delen (De Module-Opdeling)

In plaats van de assistent als één grote, ondoorzichtige "zwarte doos" te zien, breekt EVOTOOL hem op in vier gespecialiseerde teamleden:

De Planner: Bedenkt het stappenplan.
De Selector: Kiest welk gereedschap (tool) nodig is.
De Caller: Voert het gereedschap daadwerkelijk uit (typen, klikken, data ophalen).
De Synthesizer: Vat alles samen en geeft het antwoord.

2. Het Grote Probleem: Wie is de Schuldige?

Stel, de assistent faalt bij het boeken van een hotel. Bij oude methoden werd vaak alles tegelijk aangepakt (alsof je de hele auto in elkaar slaat omdat de band lek is). Dat werkt niet goed; je lost misschien het bandprobleem op, maar breekt dan de motor.
Andere methoden keken alleen naar één ding (bijvoorbeeld alleen de planner), maar vergeten dat de fout misschien door de keuze van de tool werd veroorzaakt.

EVOTOOL doet iets slims: De Blame-Aware Mutation (De Schuld-toewijzing).
Het systeem kijkt naar de "traject" (het verhaal van wat er gebeurd is) en vraagt een slimme "rechter" (een ander AI-model): "Waar ging het precies fout?"

Was het omdat de planner geen stappenplan had?
Of omdat de selector de verkeerde API koos?
Of omdat de caller de verkeerde parameters invulde?

De rechter wijst de specifieke schuldige aan.

3. De Chirurgische Operatie (Gerichte Mutatie)

Zodra de schuldige bekend is, doet EVOTOOL geen grootschalige renovatie. Het voert een chirurgische ingreep uit.
Stel, de Selector (de gereedschapskiezer) was de schuldige. Dan krijgt alleen die persoon een nieuwe instructie (een "feedback") gebaseerd op de fout die hij maakte. De Planner, Caller en Synthesizer blijven ongemoeid.
Het is alsof je een voetballer die vaak de bal verliest, een specifieke training geeft, terwijl je de doelman en de verdedigers laat rusten.

4. Een Divers Team Behouden (Diversiteits-Selectie)

In veel AI-systemen kiezen ze altijd de "beste" versie en gooien ze de rest weg. Dat is gevaarlijk, want misschien is versie A geweldig op korte afstand, maar versie B beter op lange afstand. Als je alleen versie A houdt, verlies je die flexibiliteit.
EVOTOOL houdt een divers team van verschillende versies van de assistent in stand. Het kiest niet alleen de "winnaar", maar zorgt dat er altijd verschillende specialiteiten in het team zitten. Zo voorkomt het dat het systeem "vastloopt" in één manier van denken.

Waarom is dit zo goed?

Efficiëntie: Het verspillen geen tijd aan het herschrijven van dingen die al goed werken.
Snelheid: Het leert sneller omdat het precies weet waar het moet knutselen.
Resultaat: In tests (zoals het boeken van vluchten of het zoeken van informatie) wint EVOTOOL het van de beste bestaande methoden met een ruime marge (meer dan 5 punten), en dat geldt voor verschillende soorten AI-modellen.

Kortom:
EVOTOOL is als een slimme coach die niet roept: "Jullie zijn allemaal slecht, begin opnieuw!"
Maar die zegt: "Jij, de planner, je had een goed idee, maar jij, de selector, je koos de verkeerde tool. Hier is een tip voor jou. Jullie anderen, blijf doen wat je doet."
Zo evolueert het team stap voor stap naar perfectie, zonder dat iemand in de war raakt.

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

1. De Assistent in Vier Delen (De Module-Opdeling)

2. Het Grote Probleem: Wie is de Schuldige?

3. De Chirurgische Operatie (Gerichte Mutatie)

4. Een Divers Team Behouden (Diversiteits-Selectie)

Waarom is dit zo goed?

Probleemstelling

Methodologie: EVOTOOL

1. Trajectory-Grounded Blame Attribution (Fouttoeschrijving)

2. Feedback-Guided Targeted Mutation (Gerichte Mutatie)

3. Diversity-Aware Population Selection (Selectie met Diversiteitsbewustzijn)

Belangrijkste Bijdragen

Resultaten

Significantie

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

1. De Assistent in Vier Delen (De Module-Opdeling)

2. Het Grote Probleem: Wie is de Schuldige?

3. De Chirurgische Operatie (Gerichte Mutatie)

4. Een Divers Team Behouden (Diversiteits-Selectie)

Waarom is dit zo goed?

Probleemstelling

Methodologie: EVOTOOL

1. Trajectory-Grounded Blame Attribution (Fouttoeschrijving)

2. Feedback-Guided Targeted Mutation (Gerichte Mutatie)

3. Diversity-Aware Population Selection (Selectie met Diversiteitsbewustzijn)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems