FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Das Paper stellt FunnyNodules vor, einen vollständig parametrisierbaren synthetischen Datensatz mit abstrakten, lungenknotenähnlichen Formen, der durch seine vollständigen Ground-Truth-Informationen über diagnostische Merkmale und deren Zusammenhänge eine systematische Evaluierung und Analyse von erklärbarer KI (xAI) im medizinischen Bereich ermöglicht.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎨 Die „Lügen-Test-Station" für KI: Warum wir „FunnyNodules" brauchen

Stellen Sie sich vor, Sie trainieren einen sehr klugen, aber noch jungen Arzt (eine Künstliche Intelligenz), um Lungenknoten auf Röntgenbildern zu erkennen. Das Problem ist: Oft macht dieser junge Arzt die richtige Diagnose, aber aus dem falschen Grund.

  • Beispiel: Der Arzt sagt: „Das ist Krebs!", weil der Knoten dunkel ist.
  • Die Wahrheit: Eigentlich ist der Knoten harmlos, aber er sieht nur dunkel aus, weil das Röntgenbild schlecht belichtet war. Der Arzt hat Glück gehabt, aber er hat die falsche Regel gelernt.

In der echten Welt ist es extrem schwer, das herauszufinden, weil wir nicht genau wissen, worauf der Arzt wirklich geschaut hat. Wir haben keine „Zutatenliste" für die Bilder.

Hier kommt FunnyNodules ins Spiel.

🧪 Was ist FunnyNodules? (Der „Lego-Klinik")

Stellen Sie sich FunnyNodules nicht als echte Röntgenbilder vor, sondern als eine perfekte, künstliche Werkstatt, in der man Lungenknoten wie mit Lego-Steinen zusammenbauen kann.

Die Forscher haben ein Programm geschrieben, das diese Knoten aus sechs einfachen „Bausteinen" (Eigenschaften) erstellt:

  1. Wie rund ist er?
  2. Hat er spitze Stacheln?
  3. Wie scharf sind die Ränder?
  4. Wie groß ist er?
  5. Wie hell oder dunkel ist er?
  6. Hat er eine innere Struktur?

Der Clou: Die Forscher schreiben eine perfekte Regel auf einen Zettel. Zum Beispiel: „Wenn der Knoten stachelig UND dunkel ist, dann ist er bösartig (Krankheit 5). Wenn er rund und hell ist, ist er harmlos (Krankheit 1)."

Da die Bilder von einem Computer generiert werden, wissen die Forscher zu 100 % genau, welche Regel das Bild erfüllt. Es gibt keine Unsicherheit, keine unleserliche Handschrift und keine unterschiedlichen Meinungen zwischen verschiedenen Ärzten.

🕵️‍♀️ Der große Test: Lernt die KI die richtigen Regeln?

Mit dieser Werkstatt können die Forscher die KI auf die Probe stellen, wie ein Lehrer, der einen Schüler prüft:

  1. Der „Was-wäre-wenn"-Test:
    Die Forscher ändern nur einen Baustein am Bild (z. B. machen den Knoten etwas runder), während alles andere gleich bleibt.

    • Frage an die KI: „Wenn ich den Knoten runder mache, ändert sich deine Diagnose?"
    • Erwartung: Wenn die Regel sagt „Rundheit macht ihn harmlos", sollte die KI die Diagnose ändern.
    • Ergebnis: Wenn die KI die Diagnose nicht ändert, hat sie die Regel nicht verstanden. Sie lernt also nicht, warum sie etwas sagt, sondern nur, wie das Bild aussieht.
  2. Der „Vertrauens-Index" (Trust Index):
    Das ist wie ein Bericht über den Schüler.

    • Szenario A: Der Schüler bekommt die richtige Note (Diagnose), aber er kann die Rechenschritte (die Eigenschaften) nicht erklären. -> Gefährlich! (Hoher Vertrauens-Index, aber schlechte Erklärung).
    • Szenario B: Der Schüler kann die Rechenschritte perfekt erklären, aber die Endergebnis ist falsch. -> Verwirrend. (Niedriger Vertrauens-Index).
    • Ziel: Wir wollen einen Schüler, der beides kann: Die richtige Diagnose stellen und genau sagen, welche Eigenschaft dazu geführt hat.
  3. Der „Blick-Test" (Achtung, wo schaut die KI?):
    Moderne KI-Modelle zeigen oft an, wo sie auf dem Bild hingeschaut haben (eine Art „Wärmekarte").

    • Bei FunnyNodules wissen die Forscher genau, wo der „stachelige Rand" ist.
    • Wenn die KI sagt: „Ich schaue auf den Rand", aber ihre Wärmekarte zeigt, dass sie auf den Hintergrund schaut, dann lügt sie (oder irrt sich). FunnyNodules deckt diese Lügen sofort auf.

🚀 Warum ist das so wichtig?

In der echten Medizin sind Daten teuer und schwer zu bekommen. Man kann nicht einfach 10.000 Bilder von Patienten mit perfekten Notizen erstellen.

FunnyNodules ist wie ein Flugsimulator für KI:

  • Man kann tausende Szenarien durchspielen, ohne Patienten zu gefährden.
  • Man kann die Schwierigkeit hoch- oder runterdrehen (einfache Regeln vs. komplexe Verknüpfungen).
  • Man kann testen, ob die KI robust ist, auch wenn das Bild „Rauschen" (Störungen) hat.

🎯 Das Fazit

Die Forscher sagen: „Wir wollen keine KI, die nur Glück hat. Wir wollen eine KI, die denkt."

FunnyNodules ist das Werkzeug, um sicherzustellen, dass medizinische KI-Systeme nicht nur die richtige Antwort raten, sondern wirklich verstehen, warum eine Lunge krank oder gesund ist. Es ist der erste Schritt, um KI in der Medizin vertrauenswürdig und erklärbar zu machen – bevor wir sie wirklich in den OP-Saal lassen.

Kurz gesagt: FunnyNodules ist der perfekte „Lehrmeister", der der KI beibringt, nicht nur zu sehen, sondern zu verstehen.