Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een groot ziekenhuis bent met een super slimme assistent (de AI-agent). Deze assistent is niet alleen slim, maar kan ook praten met verschillende specialisten (de 'tools').

In de medische wereld zijn deze specialisten vaak andere AI-programma's die gespecialiseerd zijn in het bekijken van röntgenfoto's van de longen. Het probleem is: soms zijn deze specialisten niet perfect. Soms zeggen ze tegenstrijdige dingen.

Specialist A zegt: "Er is een klein probleem links."
Specialist B zegt: "Nee, het is rechts en het is ernstig."

Het oude probleem:
Tot nu toe was de assistent een beetje naïef. Hij keek alleen naar wat de specialisten zeiden dat ze konden doen, of hij volgde een starre handleiding. Als de specialisten het niet eens waren, wist de assistent niet wie hij moest vertrouwen. Hij koos soms willekeurig of vertrouwde degene die het langste en meest overtuigend klonk, zelfs als diegene het mis had.

De nieuwe oplossing: TEA-CXA (De "Verstandige" Assistent)
De auteurs van dit paper hebben een nieuwe manier bedacht om deze assistent te trainen. Ze noemen het TEA-CXA. Het werkt als een slimme leerling die door proberen en fouten maken leert wie hij moet vertrouwen.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Proefkeuken" (Agentic Learning)

Stel je voor dat de assistent in een proefkeuken staat. Hij krijgt een röntgenfoto en vraagt twee koks (de AI-tools) om een recept.

Kok A zegt: "Voeg peper toe."
Kok B zegt: "Geen peper, maar zout!"

In plaats van direct te kiezen, laat de assistent veel verschillende scenario's zien. Soms luistert hij naar Kok A, soms naar Kok B.

Als hij naar de juiste kok luistert, krijgt hij een gouden sterretje (een beloning).
Als hij naar de verkeerde kok luistert, krijgt hij een rode kaart (geen beloning).

Na duizenden keren proberen, begint de assistent te begrijpen: "Ah, voor foto's met een lichte schaduw is Kok A altijd beter, maar voor foto's met veel witte vlekken is Kok B de meester." Hij leert de echte betrouwbaarheid van elke kok, niet alleen wat ze zeggen dat ze kunnen.

2. De "Meesterkok" (De Policy Model)

De assistent zelf is de "Meesterkok" (een groot taalmodel). Hij is niet de expert in het koken zelf, maar hij is de chef die weet welke kok hij moet inschakelen voor welk gerecht.
Door de "gouden sterretjes" te verzamelen, wordt hij steeds beter in het kiezen van de juiste specialist, zelfs als die specialist kort en bondig is, terwijl de andere specialist een lang, mooi verhaal vertelt dat eigenlijk onzin is.

3. De "Multitasker" (Meerdere foto's tegelijk)

In de echte wereld hebben artsen vaak meerdere foto's van dezelfde patiënt (van voren, van opzij, etc.). De oude systemen konden hier vaak niet goed mee omgaan.
De nieuwe assistent is slim genoeg om:

Meerdere specialisten tegelijk te bellen (parallel).
Te weten welke foto bij welke specialist moet (bijvoorbeeld: "Kok A, kijk naar foto 1; Kok B, kijk naar foto 2").
Dit alles in één gesprek te regelen, zonder dat het systeem vastloopt.

Waarom is dit belangrijk?

In het echte leven kunnen fouten in röntgenfoto's leiden tot verkeerde behandelingen.

Vroeger: De assistent dacht: "De specialist die het langste praat, heeft gelijk." (Soms fout).
Nu: De assistent denkt: "Ik heb geleerd dat deze specifieke specialist bij dit type foto 90% van de tijd gelijk heeft, dus ik vertrouw hem."

Kort samengevat:
Dit paper introduceert een AI-assistent die niet alleen slim is, maar ook wijs. Hij leert door ervaring wie hij moet vertrouwen in een wereld waar zelfs slimme computers het soms fout hebben. Hij is als een ervaren chef die weet welke kok hij moet sturen voor welk gerecht, zodat de patiënt altijd de beste zorg krijgt.

De resultaten laten zien dat deze "wijze" assistent veel beter presteert dan alle andere methoden die we nu hebben, en hij kan zelfs fouten van de specialisten corrigeren door slim te kiezen wie hij aan het woord laat.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In het medische domein worden AI-agenten steeds vaker ingezet om expertise van verschillende hulpmiddelen (tools) te integreren. Echter, medische hulpmiddelen zijn vaak op zichzelf staande AI-modellen die inherent foutgevoelig zijn en tegenstrijdige antwoorden kunnen produceren. Bestaand onderzoek op medische agenten heeft twee belangrijke tekortkomingen:

Gebrek aan realistisch vertrouwen: Agenten vertrouwen vaak uitsluitend op de functionele beschrijvingen van hulpmiddelen of vooraf gedefinieerde gebruikssporen (traces). Ze hebben geen inzicht in de daadwerkelijke betrouwbaarheid van een tool op een specifiek dataset.
Onoplosbare conflicten: Wanneer tools tegenstrijdige output leveren, kunnen bestaande agenten niet effectief bepalen welke output correct is, omdat ze de praktische beperkingen en sterktes van elke tool per vraagtype niet kennen.

Methodologie: TEA-CXA

De auteurs introduceren TEA-CXA (Tool-Expertise-Aware Chest X-ray Agent), een framework dat een multimodale agent in staat stelt om empirisch de praktische betrouwbaarheid van hulpmiddelen te leren via multimodaal agentisch leren (agentic learning).

Kerncomponenten:

Versterkend Leren (Reinforcement Learning - RL): Het framework gebruikt Group Relative Policy Optimization (GRPO). Voor elke invoerprompt worden meerdere trajecten (rollouts) gegenereerd.
Experimenteel Vertrouwen: Wanneer tools tegenstrijdige antwoorden geven, wordt de agent getraind om experimenteel te kiezen welke tool-output hij vertrouwt. De agent leert hierdoor welke tool het meest betrouwbaar is voor een bepaald type multimodale query (bijv. een specifieke type borstbeeld of vraag).
Beloningssysteem (Reward Function): De beloning ( $R$ $R$ ) bestaat uit drie delen:
1. Outcome Reward ( $R_o$ ): Gebaseerd op exacte matching met het juiste antwoord (1 voor correct, 0 voor fout).
2. Format Rewards ( $R_t, R_a$ ): Controleert of de tool-aanroepen en het eindantwoord in het juiste formaat (JSON en <answer> tags) zijn.
3. De totale beloning stuurt de optimalisatie van het beleidsmodel (Policy MLLM).
Code Framework Enhancements: De auteurs hebben bestaande RL-codebases voor tekstuele invoer uitgebreid om multimodale contexten te ondersteunen met specifieke verbeteringen voor medische scenario's:
- Meerdere tool-aanroepen per beurt: Agenten kunnen meerdere tools tegelijk aanroepen.
- Parallelle inferentie: Versnelling van training door meerdere API-instanties van dezelfde tool te draaien.
- Multi-image ondersteuning: Agenten kunnen verwijzen naar afbeeldingen via labels (bijv. "Figuur 1") in plaats van lange bestandsnamen, wat essentieel is bij queries met meerdere X-stralen (bijv. AP, PA, zij-aanzichten).

Belangrijkste Bijdragen

Pionierswerk in Tool-Expertise: Het is de eerste aanpak die de real-world betrouwbaarheid van tools expliciet modelleert om conflicten op te lossen, in plaats van te vertrouwen op beschrijvingen of statische traces.
Empirisch Leren: De agent leert via interactie en beloningen welke tool te vertrouwen is voor specifieke query-types, wat leidt tot dynamische en contextbewuste besluitvorming.
Robuust Framework: Ontwikkeling van een flexibel code-framework voor multimodaal agentisch leren dat geschikt is voor multi-turn tool-calling in medische settings.
State-of-the-Art Prestaties: Validatie op borstbeeld-VQA-datasets (Visual Question Answering) met superieure resultaten ten opzichte van bestaande methoden.

Resultaten

De methode is geëvalueerd op de CheXbench-dataset (bestaande uit Rad-Restruct, SLAKE en OpenI subsets) met een totaal van 618 meerkeuzevragen.

Kwantitatieve Prestaties: TEA-CXA behaalde een totale nauwkeurigheid van 73,8%, wat significant hoger is dan alle baselines, inclusief:
- Individuele modellen (Qwen2.5-VL, MedGemma, Lingshu).
- Ensembles van tool-antwoorden (Agent-ensemble).
- State-of-the-art methoden zoals MedRAX (61,6%) en CheXagent (62,4%).
Conflictoplossing: In gevallen waar tools tegenstrijdige antwoorden gaven en minstens één antwoord correct was, wist TEA-CXA in 63,8% van de gevallen het juiste antwoord te selecteren. Dit is aanzienlijk beter dan ensemble-methoden (rond de 46-54%), die vaak worden misleid door de lengte of detailgraad van een antwoord in plaats van de feitelijke juistheid.
Kwalitatieve Analyse: In een casestudy koos TEA-CXA correct voor een beknopt maar juist antwoord van MedGemma, terwijl een ensemble-methode foutief koos voor een uitgebreider maar onjuist antwoord van Lingshu. Dit onderstreept het vermogen van TEA-CXA om te vertrouwen op de betrouwbaarheid van de tool en niet op oppervlakkige kenmerken van de output.

Betekenis en Impact

Dit werk markeert een verschuiving in hoe medische AI-agenten omgaan met onzekerheid en fouten in hulpmiddelen. Door agenten in staat te stellen om de "expertise" van tools te leren via versterkend leren, wordt de afhankelijkheid van perfecte, vooraf gedefinieerde workflows doorbroken.

De ontwikkelde code-framework biedt een solide basis voor toekomstig onderzoek naar multi-turn tool-calling in multimodale medische omgevingen. Het bewijst dat agenten niet alleen tools kunnen gebruiken, maar ook kunnen leren wanneer ze welke tool moeten vertrouwen, wat cruciaal is voor de veiligheid en nauwkeurigheid van AI-toepassingen in de klinische praktijk.

Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

1. De "Proefkeuken" (Agentic Learning)

2. De "Meesterkok" (De Policy Model)

3. De "Multitasker" (Meerdere foto's tegelijk)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: TEA-CXA

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation