PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der verrückte Archivschrank

Stellen Sie sich vor, Sie arbeiten in einem riesigen Krankenhaus-Archiv. Ihre Aufgabe ist es, die besten Fotos von Hauterkrankungen oder Brustkrebs zu finden, um eine künstliche Intelligenz (KI) zu trainieren.

Das Problem: Das Archiv ist ein Chaos.

Es gibt die richtigen Bilder (z. B. ein Hautkrebs-Foto).
Aber dazwischen liegen tausende Störfaktoren: Fotos von leeren Wänden, unscharfe Bilder, Bilder von völlig anderen Körperteilen oder sogar Fotos, die versehentlich vom falschen Gerät gemacht wurden.

Wenn Sie nun einen normalen KI-Assistenten bitten, „die besten Bilder zum Lernen" auszuwählen, wird er oft verwirrt sein. Er denkt: „Oh, dieses unscharfe Bild sieht interessant aus!" und wählt es aus. Das ist wie ein Schüler, der beim Lernen statt aus dem Lehrbuch aus dem Müllbeutel blättert. Das kostet Zeit und Geld, bringt aber nichts.

Die Lösung: PromptGate – Der kluge Türsteher

Die Forscher von der Universität Bonn haben eine Lösung namens PromptGate entwickelt. Stellen Sie sich das wie einen super-intelligenten Türsteher vor, der vor dem Archiv steht.

1. Wie funktioniert der Türsteher?

Normalerweise würde der Türsteher stur nach einem festen Regelwerk arbeiten (z. B. „Alle Bilder mit rotem Rand sind gut"). Aber in der Medizin ist jedes Krankenhaus anders. Ein Krankenhaus in Bonn macht Bilder anders als eines in München (andere Geräte, andere Lichtverhältnisse).

PromptGate ist anders. Er ist lernfähig und anpassbar:

Der globale Kopf: Der Türsteher hat eine allgemeine Grundregel, die für alle gilt (z. B. „Wir suchen nach Hauterkrankungen").
Der lokale Kopf: Jeder Türsteher an jedem Standort passt diese Regel an seine eigene Umgebung an. Er lernt: „Aha, hier in unserem Haus sind die Bilder oft etwas dunkler, also muss ich anders suchen."

2. Der Trick mit den „Zauberwörtern" (Prompts)

Die KI nutzt eine riesige, vorgefertigte Datenbank (ein sogenanntes VLM – Vision-Language Model), die sie nicht verändern darf (sie ist „eingefroren", wie ein gefrorener Eisblock).

Statt den Eisblock zu schmelzen (was zu teuer und gefährlich wäre), gibt PromptGate dem Türsteher kleine, anpassbare Notizzettel (die „Prompts").

Diese Notizzettel sind wie Zauberwörter, die dem Türsteher sagen: „Achte hier besonders auf..."
Diese Wörter werden ständig verbessert. Wenn der Arzt ein neues, korrektes Bild markiert, lernt der Türsteher sofort: „Okay, das war ein guter Tipp, ich passe meine Notizzettel an."

3. Das Ergebnis: Ein sauberer Pool

Bevor die KI überhaupt anfängt zu lernen, sortiert PromptGate den Müll aus.

Vorher: Der KI-Trainingspool war wie ein Eimer mit Wasser, Schlamm und Steinen.
Nachher: PromptGate hat den Schlamm (die Störfaktoren) herausgefischt. Der Eimer enthält jetzt fast nur noch klares Wasser (die richtigen Bilder).

Warum ist das revolutionär? (Die Analogie)

Stellen Sie sich vor, Sie wollen eine Suppe kochen (das KI-Modell trainieren).

Das alte System: Jemand wirft Ihnen einen ganzen Sack mit Zutaten zu – Kartoffeln, aber auch alte Schuhe, Steine und Blätter. Sie müssen mühsam alles durchsuchen, um die Kartoffeln zu finden. Oft essen Sie versehentlich einen Stein.
Das PromptGate-System: Ein cleverer Koch (der Türsteher) sortiert für Sie. Er nimmt den Sack, schüttelt ihn und fängt nur die Kartoffeln auf einem Sieb auf. Ihnen werden nur die sauberen Kartoffeln gegeben.
- Das Besondere: Der Koch lernt dazu. Wenn Sie ihm sagen: „Heute sind die Kartoffeln etwas kleiner", passt er sein Sieb sofort an.

Was haben die Forscher bewiesen?

In Tests mit echten Krankenhausdaten (Haut und Brustkrebs) zeigte sich:

Reinheit: Während alte Methoden oft nur bei 50–60 % „sauberen" Bildern lagen, schaffte PromptGate über 95 %. Das bedeutet: Fast jedes Bild, das zur KI geschickt wird, ist tatsächlich nützlich.
Datenschutz: Die Krankenhäuser müssen ihre Patientendaten nicht austauschen. Jeder lernt nur an seinen eigenen Daten und schickt nur die winzigen „Notizzettel" (die Anpassungen) an die Zentrale. Das ist wie ein Geheimcode, den niemand entschlüsseln kann, um die Bilder selbst zu sehen.
Flexibilität: Es funktioniert mit fast jeder Lernmethode. Es ist wie ein Stecker, den man einfach in jede Steckdose (jede KI-Strategie) stecken kann, um sie sofort besser zu machen.

Fazit

PromptGate ist wie ein intelligenter, lernender Filter, der sicherstellt, dass KI-Systeme in der Medizin nicht durch den Müll waten müssen. Es spart Zeit, spart Geld (weil Ärzte weniger Zeit mit falschen Bildern verschwenden) und schützt die Privatsphäre der Patienten, indem es die Daten in den Krankenhäusern lässt.

Es verwandelt das chaotische „Offene Set" (alles Mögliche ist drin) in ein sauberes, geordnetes „Geschlossenes Set" (nur das Wichtige ist übrig), damit die KI endlich effektiv lernen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Einsatz von medizinischer KI in ressourcenbeschränkten Einrichtungen erfordert dateneffiziente Lernpipelines, die die Patientenprivatsphäre wahren. Federated Learning (FL) ermöglicht zwar die kollaborative Entwicklung von KI-Modellen ohne zentrale Datenspeicherung, doch reale klinische Datenbestände sind inhärent Open-Set (offen). Das bedeutet, dass sie neben den Zielklassen (In-Distribution, ID) auch viele Out-of-Distribution (OOD) Daten enthalten, wie z. B. Bildartefakte, falsche Modalitäten oder nicht relevante Pathologien.

Herausforderungen bestehen darin:

Standard-Active-Learning (AL)-Strategien gehen oft von einem geschlossenen Set aus und behandeln OOD-Daten fälschlicherweise als informative Stichproben. Dies verschwendet das knappe Budget für Annotationen.
Bestehende Open-Set-AL-Ansätze ignorieren oft die heterogene Natur verteilter Daten (unterschiedliche Scanner, Färbeprotokolle) und nutzen keine semantischen Priors von Vision-Language-Modellen (VLMs).
Es fehlt eine Methode, die OOD-Daten vor der Abfrage (Query) dynamisch und datenschutzkonform filtert, ohne die Daten zwischen den Kliniken auszutauschen.

2. Methodik: PromptGate

Die Autoren schlagen PromptGate vor, ein dynamisches, VLM-basiertes Gating-Modul für Open-Set Federated Active Learning (OS-FAL). Das System fungiert als „Plug-and-Play"-Vorschaltfilter für beliebige AL-Strategien.

Kernkomponenten:

Basis-Modell: Ein vortrainiertes, eingefrorenes Vision-Language-Modell (BiomedCLIP) mit einem Bild-Encoder ( $E_{img}$ ) und einem Text-Encoder ( $E_{text}$ ).
Lernbare Prompts (CSC-Optimierung): Anstatt das gesamte Modell zu trainieren, werden kontinuierliche Kontext-Token (Prompts) optimiert. Diese sind in zwei Komponenten unterteilt:
1. Globale Prompts ( $p^g_c$ ): Werden über FedAvg aggregiert und erfassen ein gemeinsames semantisches Priorwissen über die Zielklassen und OOD.
2. Lokale Prompts ( $p^k_c$ ): Sind pro Client (Klinik) spezifisch und passen sich an die lokale Datenheterogenität (z. B. spezifische Scanner-Artefakte) an.
VLM-Gated Pseudo-Labeling:
- Für jeden ungelabelten Datensatz berechnet der Client die Cosinus-Ähnlichkeit zwischen dem Bild-Embedding und den prompt-basierten Text-Embeddings (für jede Klasse und eine „OOD"-Klasse).
- Basierend auf einer temperatur-skalierten Softmax-Verteilung wird ein Pseudo-Label zugewiesen.
- Filterung: Nur Proben, die mit hoher Wahrscheinlichkeit einer Zielklasse (ID) zugeordnet werden, werden in den Candidate Pool ( $C_k$ ) übernommen. Alle anderen (OOD) werden verworfen.
Federated Aggregation & Update:
- Nach der Abfrage durch den Experten (Oracle) werden die wahren Labels verwendet, um die Prompt-Vektoren (global und lokal) mittels Gradientenabstieg (CoOp-Stil) zu aktualisieren.
- Nur die Updates der globalen Prompts werden zum Server gesendet und aggregiert; lokale Prompts bleiben privat.
- Dieser Prozess schärft die Grenze zwischen ID und OOD iterativ.

3. Wichtige Beiträge

PromptGate: Das erste lernbare Prompt-Modul für OS-FAL, das globale und lokale Prompts dekomponiert, um heterogenes OOD-Verhalten in verteilten Netzwerken zu erfassen.
VLM-basiertes Gating: Ein Mechanismus, der einen hochreinen Kandidatenpool (ID) für jede nachgelagerte AL-Strategie (z. B. Random, Entropy, FEAL) bereitstellt, ohne die Strategie selbst zu ändern.
Plug-and-Play-Verbesserung: Demonstration, dass PromptGate die Query-Purity (Reinheit der abgefragten Daten) und die Label-Effizienz über mehrere AL-Strategien und zwei medizinische Benchmarks hinweg signifikant verbessert.

4. Ergebnisse

Die Evaluation erfolgte auf zwei verteilten medizinischen Datensätzen:

FedISIC: Ein Benchmark für dermatologische Läsionen (8 Klassen) mit simulierten OOD-Daten (50% Anteil).
FedEMBED: Ein Benchmark für die Brustdichteklassifikation mit realen klinischen Artefakten als OOD.

Key Findings:

Reinheit (Purity): Während statische VLM-Prompts (Baseline) die ID-Reinheit auf ca. 50–76% fallen lassen, hält PromptGate eine Reinheit von >95% (im Durchschnitt 96,8% für die lokale Variante) über alle Runden hinweg.
OOD-Erkennung: PromptGate erreicht eine OOD-Recall-Rate von 98%, was bedeutet, dass fast alle irrelevanten Daten erfolgreich gefiltert werden.
Vergleich mit Baselines:
- Im Vergleich zu „Coldstart" (keine Filterung) und statischen VLM-Filtern verbessert PromptGate die Query Precision (QP) drastisch.
- Auf FedISIC steigt die durchschnittliche Reinheit von 60,7% (Coldstart) auf 96,5% (PromptGate).
- Die Balanced Multiclass Accuracy (BMA) der nachgelagerten Modelle verbessert sich um 1–3%, da mehr Annotationen für relevante Daten verwendet werden.
Adapter-Strategie: Die „Local"-Variante (nur client-spezifische Prompts) oder die „Mixed"-Variante (global + lokal) übertrifft reine „Global"-Ansätze, da sie spezifische Artefakte einzelner Kliniken besser modellieren können.

5. Bedeutung und Fazit

PromptGate löst das Paradoxon, dass statische OOD-Definitionen in heterogenen klinischen Umgebungen versagen. Durch die dynamische Anpassung der Text-Prompts an lokale Datenverteilungen wird das VLM zu einem robusten „Gatekeeper".

Datenschutz: Es werden keine Patientendaten zwischen den Kliniken ausgetauscht; nur die kleinen Prompt-Vektoren (ca. 12.000 Parameter pro Client) werden synchronisiert.
Effizienz: Das System ist extrem leichtgewichtig und fügt dem bestehenden FL-Workflow nur einen minimalen Overhead hinzu.
Praxisrelevanz: Es ermöglicht die effiziente Nutzung von Active Learning in realen, verteilten klinischen Umgebungen, indem es das Budget für teure Experten-Annotationen auf die wirklich relevanten Fälle konzentriert.

Zusammenfassend stellt PromptGate einen Paradigmenwechsel dar: Statt das VLM als alleinigen Klassifikator zu nutzen, wird es als adaptiver, semantischer Filter eingesetzt, der Open-Set-Probleme in verteilten Umgebungen effektiv in Closed-Set-Probleme für die nachgelagerten Modelle transformiert.