Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Deze pilotstudie toont aan dat een multi-agent framework met contrastieve adjudicatie de prestaties van multimodale modellen verbetert bij het onderscheiden van visueel moeilijk te scheiden ziekten in een zero-shot setting, hoewel de huidige prestaties nog ontoereikend zijn voor klinische toepassing.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos, Sven Nebelung, Daniel Truhn

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🏥 De Uitdaging: Twee Ziektes die op elkaars kleren lijken

Stel je voor dat je een detective bent die foto's van ziektes moet analyseren. Soms is het makkelijk: een gebroken been ziet er anders uit dan een blauwe plek. Maar wat als je twee verdachten hebt die exact hetzelfde pak dragen?

In dit onderzoek kijken de auteurs naar twee moeilijke paren:

  1. Melanoom (huidkanker) vs. Een ongewone moedervlek: Ze zien er op de foto bijna identiek uit, maar de behandeling is totaal verschillend. Bij kanker moet je snijden; bij een moedervlek kun je vaak wachten.
  2. Longoedeem (vocht in de longen) vs. Longontsteking: Beide laten vage witte vlekken zien op een röntgenfoto. Maar de ene wordt behandeld met waterpillen (voor het hart), de andere met antibiotica (voor bacteriën).

Het probleem? Als je ze verward, kun je de patiënt het verkeerde medicijn geven. Dat is gevaarlijk.

🤖 De Probeerders: De AI-Agenten

De onderzoekers wilden weten of moderne AI-agenten (slimme computerprogramma's die naar foto's kijken) deze moeilijke onderscheidingen kunnen maken, zonder dat ze eerst duizenden voorbeelden hebben geoefend. Dit noemen ze een "zero-shot" setting: de AI moet het direct doen, op basis van wat ze al weten.

Het resultaat? Alleen. De AI's waren vaak onzeker. Ze maakten fouten en gaven soms zelfverzekerd onzin als bewijs. Het was alsof een detective die net uit de school is, de verdachte beschuldigt op basis van een vage droom in plaats van feiten.

💡 De Oplossing: Het "Contrastieve Team" (CARE)

De onderzoekers bedachten een slimme truc, genaamd CARE. In plaats van één detective, zetten ze een drie-koppig team aan het werk.

Stel je dit team voor als een rechtbank:

  1. De Anklager (Agent A): Deze AI krijgt de opdracht: "Bewijs dat dit een melanoom is!" Hij zoekt naar elk klein detail dat op kanker lijkt. Hij mag niet zeggen "dit is kanker", hij moet alleen bewijs verzamelen.
  2. De Verdediger (Agent B): Deze AI krijgt de tegenovergestelde opdracht: "Bewijs dat dit een ongewone moedervlek is!" Hij zoekt naar bewijs dat het onschuldig is.
  3. De Rechter (De Judge): Deze AI kijkt niet alleen naar wat de anderen zeggen, maar kijkt zelf ook naar de foto. Zijn taak is om te checken: "Zie ik dit bewijs echt op de foto, of verzint de anklager het?"

De magische stap: De Rechter vergelijkt de twee verhalen. Als de Anklager zegt: "Kijk, die vlek is chaotisch!" en de Rechter kijkt naar de foto en zegt: "Nee, die vlek is heel symmetrisch, je verzint dat," dan wordt dat bewijs verworpen. De AI die het beste bewijs heeft dat echt op de foto te zien is, wint.

🏆 Wat Vonden Ze?

De resultaten waren veelbelovend, maar nog niet perfect:

  • Meer slagen: Door dit "teamwerk" en het controleren van de feiten, steeg het aantal juiste diagnoses met ongeveer 11%. Dat is een flinke sprong voor een AI die niet is getraind op deze specifieke ziektes.
  • Minder verzinsels: De AI's begonnen minder onzin te verzinnen. De Rechter pakte ze op als ze probeerden een detail te gebruiken dat er niet was.
  • Nog niet klaar voor het ziekenhuis: Hoewel het beter ging dan alleen een AI, waren ze nog niet goed genoeg om echt patiënten te behandelen. Ze maakten nog steeds te veel fouten voor een arts om er blind op te vertrouwen.

🧠 De Grote Les

De kernboodschap van dit onderzoek is als volgt:
Als je een AI vraagt om een moeilijk oordeel te vellen, is het slimmer om twee tegenstanders te laten discussiëren en een onafhankelijke scheidsrechter te laten kijken naar de feiten, dan om één AI te laten raden.

Het is alsof je niet vraagt aan één vriend of een schilderij echt is, maar je vraagt aan één vriend om te zeggen waarom het echt is, en aan een ander om te zeggen waarom het nep is. Dan laat je een expert kijken of hun argumenten kloppen met het schilderij.

Conclusie: AI wordt slimmer door "tegenstrijdigheid" te gebruiken, maar we moeten nog even wachten voordat we deze slimme detectives volledig kunnen vertrouwen in het ziekenhuis.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →