Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Pathologe (ein Arzt, der Gewebeproben untersucht) muss einen riesigen, hochauflösenden Foto-Atlas eines menschlichen Organs lesen. Dieses Bild ist so groß, dass es Milliarden von Pixeln hat – größer als jede Stadt auf einer Landkarte. Die Aufgabe des Computers ist es, dieses riesige Bild zu betrachten und einen medizinischen Bericht zu schreiben, der genau beschreibt, was der Arzt sehen würde: „Ist es Krebs? Welche Art? Wie schlimm ist es?"

Das Problem: Ein normaler Computer ist wie ein Schüler, der versucht, ein ganzes Buch auf einmal zu lesen, während er gleichzeitig eine Zusammenfassung schreiben soll. Das ist unmöglich.

Hier ist die Lösung, die die Forscher von ViseurAI entwickelt haben, erklärt mit einfachen Analogien:

1. Der „Lupe"-Ansatz (Die pyramidenförmige Suche)

Statt das riesige Bild auf einmal zu betrachten, nutzen die Forscher eine Pyramiden-Strategie.

Die Analogie: Stellen Sie sich vor, Sie suchen nach einem bestimmten Baum in einem riesigen Wald. Zuerst schauen Sie aus einem Hubschrauber (ganz oben, grob) und sehen nur die Konturen des Waldes. Dann steigen Sie etwas tiefer (mittlere Ebene), um die Baumgruppen zu erkennen. Schließlich steigen Sie ganz nah herab (grobe Ebene), um die Blätter und Rinde zu sehen.
Im Computer: Das System scannt das Bild in verschiedenen Zoom-Stufen. Es filtert sofort alles Unwichtige heraus (wie leere Glasflächen oder unscharfe Stellen) und konzentriert sich nur auf die interessanten Gewebeteile. Es ist wie ein Detektiv, der nur die Spuren untersucht, die wirklich wichtig sind, und den Rest ignoriert.

2. Der erfahrene Experte (Das UNI-Modell)

Für das eigentliche „Sehen" nutzen die Forscher ein KI-Modell namens UNI.

Die Analogie: Stellen Sie sich UNI als einen Super-Pathologen vor, der bereits 100 Millionen Bilder von Gewebeproben gesehen hat und alles über Krebs und Krankheiten weiß. Er ist so erfahren, dass er keine neue Ausbildung mehr braucht.
Die Strategie: Die Forscher lassen diesen „Super-Experten" frozen (eingefroren). Das bedeutet, sie ändern sein Gehirn nicht. Sie nutzen nur sein Wissen, um die kleinen Bildausschnitte zu beschreiben. Das spart enorm viel Rechenleistung und Zeit, ähnlich wie wenn Sie einen erfahrenen Übersetzer bitten, nur den Text zu liefern, aber nicht, ihn neu zu lernen.

3. Der Schreiberling (Der Transformer-Decoder)

Nun haben wir die Beschreibungen des Experten, aber wir brauchen einen ganzen Bericht. Dafür bauen die Forscher einen kleinen, schlanken Schreiberling (einen Decoder).

Die Analogie: Der Schreiberling sitzt am Tisch. Der Super-Experte (UNI) reicht ihm kleine Notizen mit Bildbeschreibungen. Der Schreiberling muss diese Notizen in einen flüssigen, medizinischen Text umwandeln.
Das besondere Werkzeug: Um die schwierigen medizinischen Wörter (wie „invasives Karzinom") richtig zu schreiben, benutzen sie ein spezielles Wörterbuch namens BioGPT. Das ist wie ein Dolmetscher, der nur medizinische Fachbegriffe kennt und nicht versucht, Wörter in kleine, sinnlose Häppchen zu zerlegen.

4. Der Korrekturleser (Die Überprüfung)

KI macht manchmal Fehler und erfindet Dinge, die nicht da sind (sogenannte „Halluzinationen"). Das ist im Medizinbereich gefährlich.

Die Analogie: Bevor der Bericht abgegeben wird, läuft er durch einen Korrekturleser. Dieser Leser hat einen riesigen Stapel mit echten, von Menschen geschriebenen Berichten.
Der Trick: Wenn der KI-Bericht fast identisch mit einem echten Bericht im Stapel ist (z. B. 90 % Übereinstimmung), nimmt der Korrekturleser den echten Bericht und ersetzt den KI-Bericht damit. So wird sichergestellt, dass bei häufigen Krankheiten die Antwort 100 % korrekt ist. Nur bei seltenen, neuen Fällen bleibt der KI-Bericht stehen.

Das Ergebnis

Das System hat an einem großen internationalen Wettbewerb (REG 2025) teilgenommen und unter 24 Teams den 8. Platz belegt.

Warum ist das gut? Es ist nicht das teuerste oder komplexeste System, aber es ist sehr effizient. Es kombiniert die Weisheit eines erfahrenen Experten (UNI) mit einem schnellen Schreiberling und einem strengen Korrekturleser.
Wo hakt es noch? Bei sehr komplexen Fällen, bei denen viele Details gleichzeitig bewertet werden müssen (wie genaue Krebs-Grade), macht das System noch kleine Fehler. Aber für die meisten Standardfälle funktioniert es hervorragend und liefert Berichte, die genau so aussehen, wie sie sein sollten.

Zusammenfassend: Die Forscher haben einen Weg gefunden, wie ein Computer einen riesigen, komplizierten medizinischen Foto-Atlas lesen kann, ohne dabei verrückt zu werden, indem sie einen erfahrenen Experten, einen schlauen Schreiber und einen strengen Prüfer zusammenarbeiten lassen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die automatische Generierung diagnostischer Texte aus histopathologischen Ganzrasterbildern (Whole-Slide Images, WSIs) stellt eine erhebliche Herausforderung dar. Die Hauptprobleme sind:

Skalenunterschied: WSIs haben eine Gigapixel-Auflösung (oft >10¹⁰ Pixel), während der gewünschte Ausgabe-Text semantisch dicht, aber kurz ist. Herkömmliche Vision-Language-Architekturen, die für Bilder in 224×224 Pixeln ausgelegt sind, sind für diese Eingabegröße rechnerisch nicht handhabbar.
Genauigkeit und Halluzinationen: In der Pathologie können kleine Fehler (z. B. „bösartig" statt „gutartig") schwerwiegende klinische Folgen haben. Generative Modelle neigen oft zu Halluzinationen (Erfinden nicht vorhandener Merkmale).
Rechenkosten: End-zu-End-Training von Multimodal Large Language Models (MLLMs) für Pathologie ist extrem ressourcenintensiv und erfordert oft massive Token-Pruning, was zu einem Verlust seltener diagnostischer Merkmale führen kann.

2. Methodik

Das Paper stellt einen modularen, hierarchischen Vision-Language-Rahmen vor, der drei sequenzielle Module umfasst:

A. Hierarchische Pyramiden-Patch-Auswahl (Pyramidal Patch Selection)

Um die Verarbeitung gigapixelgroßer WSIs zu ermöglichen, wird ein „Coarse-to-Fine"-Ansatz gewählt:

Pyramiden-Scanning: Das Bild wird auf verschiedenen Vergrößerungsstufen (Downsampling-Faktoren von $2^3$ bis $2^6$ ) gescannt.
Gewebemaskierung: Basierend auf HSV-Farbraum-Schwellenwerten wird ein binäres Gewebemasken generiert, um Hintergrundglas zu entfernen.
Qualitätsfilterung: Nur diagnostisch relevante Patches werden weiterverarbeitet. Kriterien umfassen:
- Fokusqualität: Berechnung der Varianz des Laplace-Operators (Ablehnung bei unscharfen Bildern).
- Belichtung und Artefakte: Analyse von Helligkeit (Value) und Sättigung sowie Erkennung von dunklen Pixeln (Staub, Tintenflecken).
Sampling: Pro WSI wird ein Budget von maximal 2500 Patches eingehalten, wobei eine stratifizierte Stichprobenziehung über die verschiedenen Vergrößerungsebenen sichergestellt wird.

B. Feature-Extraktion mit dem UNI Foundation Model

Frozen Encoder: Das UNI-Modell (Universal Pathology, ein ViT-Large/16, vorab trainiert auf >100 Mio. Gewebepatches) wird als eingefrorener (frozen) visueller Encoder verwendet. Dies spart erheblich GPU-Speicher (Reduktion von ~16 GB auf ~4 GB) und nutzt robuste, selbstüberwachte Repräsentationen.
Feature-Vector: Jeder ausgewählte Patch wird in einen 1024-dimensionalen Feature-Vektor kodiert.

C. Transformer-Decoder und Tokenisierung

Leichtgewichtiger Decoder: Ein benutzerdefinierter 6-Schichten-Transformer-Decoder wird trainiert, um die visuellen Features in diagnostischen Text zu übersetzen. Der Encoder bleibt dabei fixiert.
BioGPT Tokenizer: Statt eines allgemeinen Tokenizers wird der BioGPT-Tokeniser verwendet. Dies verbessert die Darstellung biomedizinischer Terminologie (z. B. Gewebearten, Diagnosebegriffe) und reduziert die Fragmentierung von Fachbegriffen.
Architektur: Der Decoder nutzt Cross-Attention, um sich dynamisch auf die relevanten Bildregionen zu konzentrieren, während er den Text autoregressiv generiert.

D. Retrieval-basierte Verifikation (Post-Processing)

Um Halluzinationen zu minimieren, wird ein Nachbearbeitungsschritt eingeführt:

Generierte Berichte werden mit Sentence-BERT in semantische Embeddings (384-dim) umgewandelt.
Diese werden mit einer Datenbank von Ground-Truth-Berichten verglichen (Cosine-Similarity).
Bei einer hohen Ähnlichkeit (Schwellenwert $\tau = 0,85$ ) wird der generierte Bericht durch den zugehörigen Ground-Truth-Referenzbericht ersetzt. Berichte unterhalb des Schwellenwerts bleiben erhalten, da sie seltene, aber gültige Muster darstellen könnten.

3. Hauptbeiträge

Effiziente Pyramiden-Strategie: Eine skalierbare Scan-Methode mit einfachen, interpretierbaren Filtern, die Gewebe priorisiert und Artefakte unterdrückt.
Modulares Design: Kombination eines eingefrorenen UNI-Encoders mit einem leichtgewichtigen Decoder, was End-zu-End-Training überflüssig macht und die Rechenkosten drastisch senkt.
Domain-spezifische Tokenisierung: Nutzung von BioGPT zur besseren Abbildung medizinischer Fachsprache.
Verifikationsmechanismus: Ein Retrieval-basierter Schritt zur Erhöhung der Zuverlässigkeit und Reduktion von Halluzinationen ohne komplexes RLHF-Training.

4. Ergebnisse

Das System wurde am REG 2025 Grand Challenge evaluiert (Datensatz mit 10.494 WSI-Bericht-Paaren aus 5 Institutionen und 7 Organsystemen).

Leistung: Das Team „MedInsight-ViseurAI" erreichte einen Ranking-Score von 0,8093 und belegte den 8. Platz unter 24 Teams (der beste Score lag bei 0,8494).
Qualitative Analyse:
- Das Modell zeigte hohe Genauigkeit bei der Identifizierung von Organen, Biopsiearten und primären Diagnosen für häufige Pathologien.
- Schwächen traten bei komplexen, mehrattributiven Grading-Schemata auf (z. B. Unterscheidung zwischen in situ und invasivem Karzinom oder feine Gleason-Score-Unterscheidungen).
- Die Ausgabe folgte konsistent dem erwarteten klinischen Format, was ein Vorteil gegenüber generischen LLMs ist, die oft von Standardvorlagen abweichen.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass eine hohe diagnostische Zuverlässigkeit in der automatisierten Berichterstellung auch ohne das massive Training riesiger multimodaler Modelle erreicht werden kann.

Effizienz: Durch das Einfrieren des Foundation-Modells und den Fokus auf effiziente Patch-Auswahl wird der Ressourcenbedarf minimiert, was die Forschung und Anwendung in ressourcenbeschränkten Umgebungen ermöglicht.
Zuverlässigkeit: Die Kombination aus einem spezialisierten Decoder und einer Retrieval-basierten Verifikation bietet einen praktischen Ansatz, um das Risiko von Halluzinationen in klinischen Anwendungen zu senken.
Ausblick: Zukünftige Arbeiten sollen sich auf strukturierte Vorhersagemodelle für komplexe Grading-Schemata und die Validierung über diverse institutionelle Datensätze hinweg konzentrieren.

Zusammenfassend bietet dieser Ansatz einen skalierbaren und klinisch relevanten Weg, um die Lücke zwischen gigapixelgroßen histopathologischen Bildern und präzisen, strukturierten Diagnoseberichten zu schließen.