Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Lehrer, der eine neue Klasse unterrichtet. Ihr Ziel ist es, den Schülern (dem Computer) beizubringen, verschiedene Tiere zu erkennen. Sie haben jedoch ein Problem: In Ihrem Klassenzimmer (den Daten) gibt es nicht nur die Tiere, die Sie kennen (Hunde, Katzen, Vögel), sondern auch völlig unbekannte Kreaturen, die niemand vorher gesehen hat (z. B. ein Drache oder ein Einhorn).

Das ist das Szenario des Open-Set Active Learning: Der Computer lernt in einer Welt, in der ständig neue, unbekannte Dinge auftauchen.

Das Problem bei herkömmlichen Methoden ist wie folgt: Wenn der Lehrer unsichere Schüler ansieht, wählt er oft die aus, die am meisten verwirrt sind. Das Problem ist: Diese Verwirrung kommt oft von den unbekannten Drachen. Wenn der Lehrer diese Drachenbilder zur Besprechung auswählt, verbringt er wertvolle Zeit damit, über Dinge zu reden, die er gar nicht kennt, und vergisst dabei, die Hunde und Katzen besser zu lehren.

Die Autoren dieses Papers, E2OAL, haben eine clevere Lösung entwickelt. Hier ist die Erklärung in einfachen Bildern:

1. Das alte Problem: Der separate "Drachen-Detektor"

Frühere Methoden bauten einen extra, separaten "Drachen-Detektor" (einen OOD-Detektor), der nur darauf trainiert war, zu sagen: "Achtung, das ist ein unbekanntes Tier!"

Nachteil: Das ist wie ein zweiter Lehrer, den Sie extra bezahlen müssen. Es kostet viel Zeit und Geld (Rechenleistung). Außerdem ignoriert dieser Ansatz die Tatsache, dass die Drachen-Bilder selbst wertvolle Informationen enthalten könnten, wenn man sie richtig nutzt.

2. Die E2OAL-Lösung: Ein Alles-in-einem-System

E2OAL baut keinen separaten Detektor. Stattdessen ist es wie ein super-intelligenter Lehrer, der zwei Dinge gleichzeitig tut:

Schritt A: Die "Geheime Gruppierung" (Label-Guided Clustering)

Stellen Sie sich vor, Sie haben einen Haufen Bilder von unbekannten Tieren. Anstatt sie alle als "Unbekannt" in einen Sack zu werfen, schaut sich der Lehrer die Bilder genau an und sagt: "Moment mal, diese drei Drachen sehen sich ähnlich, diese zwei Einhörner auch."

Wie? Der Lehrer nutzt ein vorgefertigtes, sehr kluges Gedächtnis (ein frozen feature space von Modellen wie CLIP), das schon alles über Bilder weiß. Er gruppiert die unbekannten Bilder in kleine, logische Haufen.
Der Clou: Er nutzt diese Gruppen, um dem Computer beizubringen, dass "Unbekannt" nicht nur ein einziger Korb ist, sondern viele verschiedene Dinge sein können. Das hilft dem Computer, die bekannten Tiere (Hunde/Katzen) viel besser zu unterscheiden, weil er den "Lärm" der Unbekannten besser versteht.

Schritt B: Der "Zuverlässigkeits-Check" (Dirichlet-Calibration)

Normalerweise sind Computer sehr selbstvertraut, auch wenn sie sich irren. Sie sagen: "Das ist zu 99% ein Hund", obwohl es ein Drache ist.

Die Lösung: E2OAL nutzt eine spezielle mathematische Technik (Dirichlet-Verteilung), die dem Computer beibringt: "Sei vorsichtig mit deinem Selbstvertrauen, wenn die Beweise schwach sind."
Analogie: Es ist wie ein Schüler, der lernt, "Ich bin mir nicht sicher" zu sagen, statt blindlings zu raten. Das hilft dem Lehrer zu erkennen, welche Bilder wirklich gut sind, um sie zu besprechen.

Schritt C: Die "Zwei-Phasen-Auswahl" (Der Filter)

Wenn der Lehrer jetzt neue Bilder auswählen muss, um sie zu beschriften, macht er das in zwei Schritten:

Der Reinheits-Filter: Er schaut sich alle Bilder an und filtert sofort alle Drachen und Einhörner heraus. Er will nur Bilder von Hunden und Katzen sehen (hohe "Reinheit").
Der Informations-Filter: Von den verbleibenden Hundebildern wählt er nicht die aus, die er schon perfekt kennt, und auch nicht die, die so unscharf sind, dass man sie nicht erkennen kann. Er wählt die aus, die genau an der Grenze liegen – die sind am interessantesten für das Lernen.

Warum ist das so gut?

Kein extra Lehrer: Sie brauchen keinen separaten Detektor mehr. Das spart Zeit und Geld.
Lehren aus dem Unbekannten: Statt die unbekannten Bilder zu ignorieren, nutzt E2OAL sie, um das Verständnis für die bekannten Bilder zu vertiefen. Es ist, als würde man aus den Fehlern der Schüler lernen, statt sie nur zu bestrafen.
Präzision: Der Lehrer wählt genau die Bilder aus, die er braucht, um die Klasse zu verbessern, ohne Zeit mit unnötigen "Drachen-Diskussionen" zu verschwenden.

Fazit

E2OAL ist wie ein effizienter, kluger Tutor, der in einer chaotischen Welt voller unbekannter Dinge arbeitet. Er gruppiert das Chaos, behält den Überblick, bleibt bescheiden bei seiner Einschätzung und wählt genau die richtigen Beispiele aus, um den Schüler (den KI-Modell) schnell und präzise zu einem Experten für das zu machen, was er eigentlich lernen soll.

Das Ergebnis: Der Computer lernt schneller, macht weniger Fehler und braucht weniger teure menschliche Hilfe, um neue Dinge zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem des Open-Set Active Learning (OSAL). Im Gegensatz zum herkömmlichen Active Learning (AL), das davon ausgeht, dass alle ungelabelten Daten zu bekannten Klassen gehören (Closed-Set), muss OSAL mit Daten umgehen, die Klassen enthalten, die dem Modell während des Trainings noch unbekannt sind (Out-of-Distribution oder OOD).

Herausforderung: Herkömmliche AL-Methoden neigen dazu, bei Vorhandensein unbekannter Klassen diese fälschlicherweise als „informativ" zu identifizieren (aufgrund hoher Unsicherheit oder neuartiger Merkmale) und annotieren sie. Dies verschwendet das teure Annotationbudget und verschlechtert die Leistung des Modells für die bekannten Klassen.
Bestehende Lösungen & Mängel: Aktuelle OSAL-Ansätze nutzen oft separat trainierte OOD-Detektoren, um die Reinheit der Abfragen zu gewährleisten. Dies führt zu einem erheblichen Trainingsaufwand (Overhead). Zudem ignorieren diese Methoden oft den potenziellen Nutzen von bereits gelabelten „Unbekannten"-Daten, um das Lernen der bekannten Klassen zu verbessern.

2. Methodik: E2OAL Framework

Die Autoren stellen E2OAL (Effective and Efficient Open-set Active Learning) vor, ein einheitliches, detektor-freies Framework, das zwei Hauptphasen pro Active-Learning-Runde durchläuft:

A. Adaptive Klassenschätzung und Kalibrierung (Training)

Label-gesteuerte Clustering: E2OAL nutzt einen eingefrorenen, kontrastiv vortrainierten Merkmalsraum (z. B. CLIP), um die latenten Klassenstrukturen der gelabelten Daten (bekannt + unbekannt) zu analysieren.
- Anstatt eine feste Anzahl unbekannter Klassen vorauszusetzen, wird die optimale Anzahl der Cluster ( $\hat{u}$ ) durch Maximierung eines strukturbewussten F1-Produkt-Ziels (unter Verwendung des Hungarian-Algorithmus zur Zuordnung) dynamisch geschätzt.
- Dies ermöglicht die Entdeckung der Granularität unbekannter Klassen ohne explizite OOD-Modelle.
Dirichlet-basierte Kalibrierung: Um die Überzeugung (Confidence) des Modells zu kalibrieren und Überkonfidenz bei unbekannten Eingaben zu vermeiden, wird ein Hilfskopf (Auxiliary Head) verwendet.
- Dieser Kopf modelliert die Vorhersageverteilungen als Dirichlet-Verteilungen (Evidential Deep Learning).
- Eine modifizierte Softmax-Funktion mit einer additiven Konstante ( $\gamma$ ) bricht die Translationsinvarianz auf, sodass die Wahrscheinlichkeiten auch die absolute Evidenz widerspiegeln.
- Der Hilfskopf wird gemeinsam mit dem Hauptkopf trainiert, wobei bekannte Klassen durch Standard Cross-Entropy und alle Klassen (bekannt + geschätzte unbekannte) durch einen Dirichlet-basierten Verlust (NLL + KL-Divergenz) optimiert werden. Dies verbessert die Diskriminierung bekannter Klassen und liefert kalibrierte Konfidenzwerte.

B. Flexible Zwei-Stufen-Abfragestrategie (Query Selection)

Die Auswahl der zu annotierenden Proben erfolgt in zwei Schritten, um Reinheit und Informativität zu balancieren:

Reinheits-Score (Purity Score): Basierend auf den kalibrierten Logits des Hilfskopfs wird ein „Logit-Margin-Reinheits-Score" berechnet ( $S_{purity}$ $S_{p u r i t y}$ ). Er misst die Differenz zwischen dem höchsten Logit einer bekannten Klasse und dem höchsten Logit einer unbekannten Klasse.
- Ein Gaussian Mixture Model (GMM) wird auf diese Scores angewendet, um eine Kandidatenpool mit hoher Reinheit zu konstruieren.
- Die Größe dieses Pools wird dynamisch angepasst, um eine Ziel-Abfragepräzision ( $p^*$ ) zu erreichen, ohne zusätzliche Hyperparameter zu benötigen.
Informativitäts-Score: Innerhalb des hochreinen Kandidatenpools werden die Proben nach einem maßgeschneiderten Informativitäts-Metrik ( $S_{info}$ $S_{in f o}$ ) sortiert.
- Diese Metrik basiert auf der Jensen-Shannon-Divergenz und bevorzugt Proben mit moderater Unsicherheit (die weder zu sicher noch zu unsicher sind), während sie Proben mit übermäßiger Ambiguität oder trivialen Vorhersagen unterdrückt.

3. Hauptbeiträge

Einheitliches, detektor-freies Framework: E2OAL eliminiert die Notwendigkeit separater OOD-Detektoren, was den Trainingsaufwand drastisch senkt.
Nutzung gelabelter Unbekannter: Das Framework nutzt gelabelte Unbekannte nicht nur als „Ausschlusskriterium", sondern als wertvolle Supervision, um die Struktur unbekannter Klassen zu lernen und die Diskriminierung bekannter Klassen zu verbessern.
Adaptive Klassenschätzung: Eine neue Strategie zur automatischen Schätzung der Anzahl und Struktur unbekannter Klassen in einem kontrastiven Merkmalsraum.
Dirichlet-Kalibrierung: Ein neuartiger Ansatz zur Verbesserung der Konfidenzkalibrierung unter Open-Set-Bedingungen, der Überkonfidenz bei OOD-Daten reduziert.
Dynamische Präzisionskontrolle: Eine Zwei-Stufen-Strategie, die die Abfragepräzision automatisch an ein Ziel anpasst, ohne manuelles Tuning von Schwellenwerten.

4. Ergebnisse

Die Autoren evaluieren E2OAL auf mehreren Standard-Bildklassifizierungs-Datensätzen (CIFAR-10, CIFAR-100, Tiny-ImageNet) unter verschiedenen Mismatch-Ratios (Anteil unbekannter Klassen).

Leistung: E2OAL übertrifft konsistent den State-of-the-Art (SOTA) Methoden wie EAOA, BUAL, EOAL und LfOSA in Bezug auf Testgenauigkeit, Abfragepräzision und Effizienz.
Effizienz: Da keine separaten Detektoren trainiert werden müssen, ist der Trainingszeitbedarf vergleichbar mit leichten Baselines (wie Random Sampling oder Uncertainty), während die Genauigkeit deutlich höher ist.
Robustheit: Das Framework zeigt stabile Ergebnisse über verschiedene Datensätze und Mismatch-Ratios hinweg. Die Abfragepräzision bleibt nahe am Zielwert ( $p^*=0.6$ ), während SOTA-Methoden oft schwanken oder suboptimale Präzision aufweisen.
Ablationsstudien: Experimente bestätigen, dass jeder Modul (Klassenschätzung, Dirichlet-Kalibrierung, Reinheits- und Informativitäts-Score) einen wesentlichen Beitrag zur Gesamtleistung leistet. Die Nutzung der feingranularen Labels für Unbekannte führt zu signifikanten Verbesserungen gegenüber dem bloßen Ignorieren oder Aggregieren dieser Klassen.

5. Bedeutung und Fazit

Das Paper ist bedeutend, weil es einen Paradigmenwechsel im Open-Set Active Learning anstößt: Statt Unbekannte als Störfaktor zu behandeln, der durch separate Detektoren abgefangen werden muss, werden sie als wertvolle Informationsquelle integriert.

Praktische Relevanz: Das Framework ist besonders für sicherheitskritische Anwendungen (z. B. autonomes Fahren, medizinische Diagnostik) geeignet, wo das Vorhandensein unbekannter Klassen unvermeidbar ist und Annotationen teuer sind.
Effizienz: Durch die Beseitigung von Overhead und die intelligente Nutzung vorhandener Daten macht E2OAL Open-Set Active Learning für reale Anwendungen praktikabler und kosteneffizienter.
Code: Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung fördert.

Zusammenfassend bietet E2OAL einen robusten, effizienten und effektiven Ansatz, der die Lücke zwischen theoretischer Open-Set-Modellierung und praktischer Anwendbarkeit schließt.