Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Diese Pilotstudie untersucht die Fähigkeit von Multi-Agenten-Systemen, visuell schwer unterscheidbare Krankheiten in einem Zero-Shot-Setting zu differenzieren, und zeigt zwar durch kontrastive Adjudikation verbesserte Ergebnisse, stellt jedoch fest, dass die Leistung für den klinischen Einsatz noch nicht ausreicht.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos, Sven Nebelung, Daniel Truhn

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Assistenten kranke Bilder erkennen, wenn sie sich fast gleich aussehen? Eine kleine Pilotstudie

Stellen Sie sich vor, Sie sind ein junger Arzt und stehen vor zwei sehr schwierigen Fällen. In beiden Fällen sieht das Bild fast identisch aus, aber die Behandlung ist völlig unterschiedlich. Das ist wie bei zwei Schülern in der Schule, die beide rote T-Shirts tragen und rote Haare haben. Der eine ist ein harmloser Nachbarjunge, der andere ein gefährlicher Einbrecher. Wenn Sie nur auf das rote Shirt schauen, können Sie sie kaum unterscheiden. Aber wenn Sie den Einbrecher verwechseln, passiert nichts Schlimmes. Wenn Sie aber den harmlosen Jungen für einen Einbrecher halten, wird er zu Unrecht verhaftet.

Genau dieses Problem untersuchen die Forscher in dieser Studie. Sie schauen sich an, ob moderne KI-Assistenten (die sogenannten „Agenten") in der Lage sind, solche kniffligen medizinischen Bilder zu unterscheiden, ohne dass sie vorher extra dafür trainiert wurden.

Das Problem: Die „Täuschung" durch das Aussehen

Die Forscher haben sich zwei schwierige Paare ausgesucht:

  1. Hautkrebs (Melanom) vs. ein harmloser Muttermal: Beide sehen auf dem Foto oft ähnlich aus (unregelmäßige Ränder, dunkle Flecken), aber beim Krebs muss operiert werden, beim Muttermal reicht oft nur Beobachtung.
  2. Lungenödem (Wasser in der Lunge) vs. Lungenentzündung: Auf dem Röntgenbild sehen beide wie „wolkige" Flecken aus. Aber beim Ödem braucht der Patient Entwässerungstabletten, bei der Entzündung braucht er Antibiotika.

Die KI-Modelle, die heute existieren, sind wie sehr selbstbewusste Schüler. Wenn sie unsicher sind, raten sie oft schnell und behaupten dann mit fester Stimme: „Das ist Krebs!", auch wenn sie sich irren. Sie halluzinieren Beweise, die gar nicht da sind.

Die Lösung: Das „Anwalts-Team" (CARE)

Um dieses Problem zu lösen, haben die Forscher ein neues System namens CARE entwickelt. Statt einen einzigen KI-Assistenten zu fragen, stellen sie sich ein kleines Gericht vor:

  1. Anwalt A (Der Ankläger): Er bekommt das Bild und muss nur Argumente finden, die für die Diagnose „Krankheit A" sprechen. Er darf nicht sagen, ob es wirklich Krankheit A ist, er muss nur die Beweise sammeln.
  2. Anwalt B (Der Verteidiger): Er bekommt dasselbe Bild und muss nur Argumente finden, die für die Diagnose „Krankheit B" sprechen.
  3. Der Richter: Dieser dritte KI-Assistent hört sich die Argumente beider Anwälte an. Aber das Besondere ist: Der Richter darf auch direkt auf das Bild schauen! Er prüft: „Hat Anwalt A wirklich gesehen, was er sagt? Oder hat er sich etwas eingebildet?"

Der Richter vergleicht dann die Beweise. Wenn Anwalt A sagt: „Hier ist ein chaotisches Muster, das ist Krebs!", der Richter aber auf das Bild schaut und sieht: „Nein, das Muster ist eigentlich symmetrisch", dann weist er das Argument zurück. Am Ende entscheidet der Richter basierend auf den geprüften Beweisen.

Was haben sie herausgefunden?

Die Ergebnisse waren eine Mischung aus Hoffnung und Realität:

  • Es funktioniert besser: Das „Anwalts-Team" (CARE) war deutlich besser als ein einzelner KI-Assistent. Bei den Hautbildern konnte die Genauigkeit um etwa 11 Prozentpunkte gesteigert werden. Die KI machte weniger dumme Fehler und erkannte, wenn sie sich etwas nur eingebildet hatte.
  • Es ist noch nicht perfekt: Obwohl es besser wurde, sind die Ergebnisse immer noch nicht gut genug, um sie sofort in echten Krankenhäusern einzusetzen. Die KI ist noch nicht so zuverlässig wie ein erfahrener Mensch.
  • Der Trick: Der Erfolg kam nicht davon, dass die KI öfter nachdachte (wie wenn man eine Aufgabe dreimal hintereinander rechnet), sondern davon, dass sie gezwungen wurde, sich selbst zu widersprechen. Indem sie Argumente für beide Seiten sammeln und dann prüfen musste, was wirklich auf dem Bild zu sehen ist, wurde sie schlauer.

Fazit für den Alltag

Stellen Sie sich vor, Sie müssen eine schwierige Entscheidung treffen. Wenn Sie nur eine Person fragen, die vielleicht voreingenommen ist, können Sie in die Irre geführt werden. Wenn Sie aber zwei Personen fragen, die gegnerische Positionen vertreten müssen, und dann einen neutralen Prüfer, der die Fakten mit der Realität vergleicht, landen Sie viel schneller bei der Wahrheit.

Die Studie zeigt: KI kann lernen, vorsichtiger zu sein und ihre eigenen Fehler zu erkennen, wenn man sie in ein solches „Gegenspieler-System" einbettet. Aber bis wir uns blind auf solche Systeme verlassen können, um Leben zu retten, müssen sie noch viel mehr lernen. Es ist ein vielversprechender erster Schritt, aber noch kein fertiges Produkt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →