Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Fotograf, der einen riesigen Vorrat an Fotos von einer belebten Stadt bei Tag hat. Du möchtest diese Fotos aber für eine KI nutzen, die Autos und Ampeln in der Nacht erkennen soll. Das Problem: Du hast keine passenden Nachtfotos mit den richtigen Beschriftungen.

Also benutzt du eine „magische Brille" (eine KI), die versucht, deine Tagesfotos automatisch in Nachtfotos umzuwandeln. Das klingt toll, aber die bisherigen Brillen hatten einen großen Fehler: Sie waren zu kreativ.

Das Problem: Die „Halluzinationen" der KI

Wenn die alte KI ein Tagesfoto in ein Nachtfoto verwandelte, dachte sie sich Dinge aus, die gar nicht da waren.

Das Szenario: Auf dem Originalfoto ist nur eine leere Straße zu sehen.
Der Fehler der alten KI: Sie malt plötzlich eine leuchtende rote Ampel oder die Rücklichter eines fahrenden Autos auf die leere Straße, nur weil sie „Nacht" bedeutet.
Die Folge: Die KI, die später Autos erkennen soll, wird verwirrt. Sie sieht rote Lichter auf der Straße und denkt: „Da ist ein Auto!", obwohl da gar keines ist. Das nennt man Halluzination.

Die Forscher aus diesem Papier haben gesagt: „Stopp! Wir müssen die KI daran hindern, Dinge zu erfinden, die nicht auf dem Originalfoto waren."

Die Lösung: Ein neuer, strengerer Übersetzer

Die Autoren haben eine neue Methode entwickelt, die wie ein zweiköpfiger Qualitätskontrolleur funktioniert. Stell dir das wie eine Redaktion vor, die einen Text übersetzt:

1. Der Detektiv (Die „Zwei-Köpfe"-Brille)

Früher schaute die KI nur auf den allgemeinen Stil: „Sieht das nach Nacht aus? Sind die Farben dunkel?"
Die neue Methode hat einen zweiten Kopf, einen Detektiv.

Wie er funktioniert: Der Detektiv kennt die Originalbeschriftungen (z. B. „Hier ist ein Auto, hier ist eine Ampel"). Er prüft das neue Nachtfoto pixelgenau.
Die Entdeckung: Wenn der Detektiv sieht: „Hey, auf dem Original war hier nur eine leere Wand, aber im Nachtfoto leuchtet hier plötzlich eine Ampel!", dann schreit er: „Fälschung! Das ist eine Halluzination!"
Der Trick: Da sie keine perfekten Pixel-Masken haben, nutzen sie eine intelligente Vorlage (ein „Foundation-Modell"), das wie ein Assistent funktioniert, der die groben Umrisse (die Bounding Boxes) nimmt und daraus eine detaillierte Landkarte erstellt, um genau zu sehen, wo die KI zu viel Phantasie hatte.

2. Der Anker (Die „Prototypen")

Um die KI zu bestrafen, wenn sie halluziniert, haben die Forscher einen Anker gebaut.

Das Bild: Stell dir vor, du hast eine Sammlung von echten Nachtfotos, in denen echte Ampeln und echte Autos zu sehen sind. Diese echten Merkmale sind wie ein Fels in der Brandung (ein Anker).
Die Regel: Wenn die KI im neuen Bild eine Ampel erfindet (weil sie eigentlich eine leere Straße hat), wird diese erfundene Ampel im digitalen Raum weit weg von den echten Anker-Ampeln geschoben.
Die Wirkung: Die KI lernt: „Aha, wenn ich eine Ampel auf eine leere Straße male, bin ich weit weg von den echten Ampeln. Das ist falsch!" Sie wird also gezwungen, die erfundene Ampel wieder zu löschen.

Der Prozess: Schritt für Schritt statt auf einen Schlag

Früher versuchten die KIs, das Tagesfoto in einem einzigen großen Sprung in ein Nachtfoto zu verwandeln. Das führte zu Chaos.
Die neue Methode nutzt eine Treppen-Metapher:
Statt vom Boden (Tag) direkt auf das Dach (Nacht) zu springen, geht die KI viele kleine Stufen hoch. Auf jeder Stufe wird das Bild ein bisschen dunkler und realistischer.

Auf jeder Stufe prüft der Detektiv: „Haben wir gerade eine falsche Ampel hinzugefügt?"
Wenn ja, wird sie sofort korrigiert, bevor die KI zur nächsten Stufe geht.

Das Ergebnis: Ein saubereres Nachtfoto

Am Ende haben die Forscher gezeigt, dass ihre Methode viel besser funktioniert als alle vorherigen:

Weniger Lügen: Es gibt viel weniger erfundene Ampeln oder Autos auf leeren Straßen.
Bessere Erkennung: Wenn eine KI nun mit diesen „sauberen" Nachtfotos trainiert wird, erkennt sie echte Autos und Ampeln viel besser. Auf dem Test-Datensatz (BDD100K) verbesserte sich die Trefferquote um stolze 15,5 %.
Besonders gut bei schwierigen Fällen: Bei Ampeln (die oft falsch erkannt wurden) gab es eine Verbesserung von fast 32 %.

Zusammenfassung in einem Satz

Die Forscher haben eine KI gebaut, die beim Umwandeln von Tag- in Nachtfotos nicht nur den Stil ändert, sondern auch einen strengen Kontrolleur an Bord hat, der sicherstellt, dass keine neuen, erfundenen Objekte auf die Straße gemalt werden – damit die KI, die später Autos sucht, nicht verwirrt wird.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Aufgabe der ungepaarten Bild-zu-Bild-Übersetzung (Unpaired Image-to-Image Translation) ist entscheidend für die Anpassung von annotierten Datensätzen vom Tag auf die Nacht, um Downstream-Aufgaben wie die Objekterkennung und semantische Segmentierung im autonomen Fahren zu unterstützen.

Das zentrale Problem besteht darin, dass bestehende Methoden (sowohl GAN-basiert als auch auf Diffusionsmodellen basierend) oft semantische Halluzinationen erzeugen. Dabei werden Objekte der Zielklasse (z. B. Verkehrsschilder, Fahrzeuge) oder künstliche Lichteffekte (z. B. Scheinwerfer, Ampeln) fälschlicherweise in Hintergrundbereichen synthetisiert, die keine entsprechenden Annotationen aufweisen.

Ursache: Herkömmliche Diskriminatoren verlassen sich stark auf globale Stilmerkmale. Im Kontext der Tag-zu-Nacht-Übersetzung lernen Generatoren daher, Objekte zu „erfinden", die typische Nachtszenen-Merkmale imitieren, um den Stil zu täuschen.
Folge: Diese Halluzinationen führen zu Rauschen in den Trainingsdaten und verschlechtern die Leistung von Downstream-Modellen (z. B. Objektdetektoren) erheblich, da diese fälschliche Objekte lernen.

2. Methodik

Die Autoren schlagen ein neues Framework vor, das auf einem Schrödinger-Brücken-basierten (Schrödinger Bridge) Multi-Step-Übersetzungsmodell aufbaut und zwei Hauptkomponenten integriert, um Zielklassen-Halluzinationen zu erkennen und zu unterdrücken:

A. Schrödinger-Brücken-Übersetzung (Multi-Step Transport)

Anstatt ein Bild in einem einzigen Schritt zu übersetzen, modelliert das Framework den Prozess als eine Folge stochastischer Transport-Schritte über intermediate Zustände. Dies ermöglicht einen glatteren und stabileren Übergang zwischen den Domänen (Tag zu Nacht) und erhöht die Vielfalt der Übersetzungen.

B. Zielklassen-Halluzinationssegmentierung (Target-Class Hallucination Segmentation)

Um Halluzinationen präzise zu lokalisieren, wird ein Dual-Head-Diskriminator entwickelt:

Stil-Diskriminator ( $D_{sty}$ ): Bewertet die globale Realismusqualität.
Segmentierungs-Diskriminator ( $D_{seg}$ ): Erkennt semantische Inkonsistenzen.
- Da die Trainingsdaten oft nur Bounding-Box-Annotationen (keine Pixel-Masken) enthalten, werden Pseudo-Segmentierungsmasken mit Hilfe eines Foundation-Modells (SAM2) generiert, wobei die Bounding-Boxes als Prompts dienen.
- Der Diskriminator wird trainiert, um Pixel in Hintergrundbereichen zu identifizieren, die Merkmale der Zielklassen aufweisen (Halluzinationen).
- Ein spezieller Halluzinationsverlust ( $L_{hl}$ ) bestraft die Vorhersage von Zielklassen in nicht-annotierten Hintergrundregionen.

C. Prototypen-basierte Unterdrückung (Prototype-Based Suppression)

Um die erkannten Halluzinationen zu unterdrücken, werden Zielklassen-Prototypen verwendet:

Konstruktion: Für jede Zielklasse werden Prototypen durch Aggregation der Merkmale annotierter Objekte im Zielbereich (Nacht) erstellt. Diese dienen als semantische Anker.
Mechanismus: Während der iterativen Übersetzung werden Merkmale von detektierten Halluzinationen im Merkmalsraum explizit von diesen Prototypen weggedrückt.
Verlustfunktion: Ein kontrastiver Verlust (InfoNCE Loss, $L_{supp}$ ) wird angewendet. Die halluzinierten Merkmale dienen als Anker, die positiven Beispiele sind die korrespondierenden Merkmale im Quellbild, und die negativen Beispiele umfassen sowohl andere Bildbereiche als auch die Zielklassen-Prototypen. Dies erzwingt eine klare Trennung zwischen Hintergrund und Vordergrund.

3. Hauptbeiträge

Halluzinationsunterdrückungs-Framework: Ein mehrstufiges, ungepaartes I2I-Framework, das gezielt Halluzinationen annotierter Klassen erkennt und unterdrückt, um semantische Konsistenz zu gewährleisten.
Halluzinationsbewusster Diskriminator: Erweiterung des Stil-Diskriminators um einen Segmentierungskopf, der durch Pseudo-Masken (generiert via SAM2 aus Bounding Boxes) pixelgenaue Halluzinationen lernt.
Prototypen-basierte Regulierung: Nutzung von Klassen-spezifischen Prototypen als negative Beispiele im kontrastiven Lernen, um Halluzinationen im Merkmalsraum zu unterdrücken.
Empirische Validierung: Nachweis einer signifikanten Reduktion von Halluzinationen und einer drastischen Verbesserung der Detektionsgenauigkeit in Downstream-Aufgaben.

4. Ergebnisse

Die Methode wurde auf dem BDD100K-Datensatz (Tag-zu-Nacht) und im KITTI $\to$ Cityscapes Szenario evaluiert.

Objekterkennung (BDD100K):
- Die Methode verbessert die durchschnittliche Präzision (mAP) um 15,5 % im Vergleich zu bestehenden Ansätzen für die Domänenanpassung.
- Bei anfälligen Klassen wie Ampeln (Traffic Lights) wurde eine Steigerung von 31,7 % erreicht.
- Das Modell erreicht in mehreren Kategorien (LKW, Fahrrad, Reiter, Person) sogar Werte, die über der „Upper Bound" liegen (ein Detektor, der auf echten Nachtbildern trainiert wurde), was in früheren Arbeiten nicht beobachtet wurde.
Qualitative Ergebnisse:
- Im Vergleich zu State-of-the-Art-Methoden (wie UNSB, InstaFormer, MGUIT) erzeugt das vorgeschlagene Modell realistischere Lichteffekte und vermeidet das Erscheinen falscher Objekte (z. B. geisterhafte Rücklichter oder Ampeln im Nichts).
- Die semantischen Grenzen der Objekte bleiben erhalten, während der Hintergrund sauber bleibt.
Ablationsstudie:
- Die Entfernung sowohl des Halluzinationsverlusts ( $L_{hl}$ ) als auch des Unterdrückungsverlusts ( $L_{supp}$ ) führt zu einem starken Leistungsabfall, was die Notwendigkeit beider Komponenten für die Unterdrückung von Hintergrund-Halluzinationen unterstreicht.

5. Bedeutung und Fazit

Dieses Paper adressiert ein kritisches, oft übersehenes Problem in der ungepaarten Bildübersetzung: die Erzeugung von semantischen Artefakten, die Downstream-Aufgaben sabotieren.

Innovation: Die Kombination aus Schrödinger-Brücken-Transport, der Nutzung von Foundation-Modellen (SAM2) zur Generierung von Pseudo-Masken aus Bounding Boxes und der kontrastiven Unterdrückung mittels Prototypen stellt einen neuen Standard dar.
Praktischer Nutzen: Die Methode ermöglicht die sichere Nutzung synthetischer Nachtdaten für das Training von Objektdetektoren, ohne dass diese durch falsche Objekte (Label Noise) verwirrt werden. Dies ist ein entscheidender Schritt für die Skalierbarkeit von Datensätzen im autonomen Fahren, wo die manuelle Annotation von Nachtszenen extrem aufwendig ist.

Zusammenfassend bietet der vorgeschlagene Ansatz eine robuste Lösung, um die Lücke zwischen Tag und Nacht zu überbrücken, indem er die Integrität der semantischen Inhalte bewahrt und gleichzeitig den visuellen Stil der Zieldomäne realistisch wiedergibt.