Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Die "blinde" Kamera

Stell dir vor, du hast eine supermoderne Sicherheitskamera. Sie hat zwei Augen:

Das sichtbare Auge (VIS): Sie sieht Farben und Details, genau wie wir Menschen. Aber wenn es dunkel wird oder Nebel aufzieht, wird sie blind.
Das Wärmesicht-Auge (IR): Sie sieht Wärme. Sie erkennt Menschen oder Autos auch in der totalen Dunkelheit, aber die Bilder sehen oft nur aus wie verschwommene, graue Flecken ohne klare Ränder.

Normalerweise arbeiten diese beiden Augen zusammen, um ein perfektes Bild zu machen. Aber was passiert, wenn das Wärmesicht-Auge kaputt geht oder fehlt? Die meisten Computerprogramme versuchen dann, das fehlende Wärmebild einfach "aus dem Nichts" zu erfinden. Das ist wie wenn ein Maler versucht, ein Foto von einer Person zu malen, ohne das Original zu sehen – oft entstehen dabei seltsame, unrealistische Gesichter oder "Halluzinationen".

Die Lösung: Der "Wörterbuch-Trick"

Die Forscher aus diesem Papier haben einen cleveren Weg gefunden, wie man das fehlende Wärmesicht-Bild nicht einfach erfindet, sondern logisch ableitet.

Stell dir vor, du hast ein riesiges Wörterbuch (das ist der Kern ihrer Methode).

In diesem Wörterbuch gibt es keine Wörter, sondern kleine Bildbausteine (sogenannte "Atome").
Ein "Baustein" könnte eine senkrechte Linie sein, ein anderer ein warmer Fleck, ein dritter eine Baumkrone.

Der Trick:
Das System lernt, dass ein "Baustein" im sichtbaren Bild (z. B. die Kontur eines Autos) fast immer mit einem bestimmten "Baustein" im Wärmesicht-Bild (z. B. der heiße Motor des Autos) zusammenpasst.

Wie funktioniert das? (Die drei Schritte)

Das System läuft in drei Schritten ab, die wie eine gut organisierte Werkstatt funktionieren:

1. Das gemeinsame Wörterbuch lernen (JSRL)
Zuerst schauen sich die Computer das sichtbare Bild und das Wärmesicht-Bild an und lernen ein gemeinsames Wörterbuch. Sie merken sich: "Aha, wenn im sichtbaren Bild diese Form vorkommt, gehört dazu im Wärmesicht-Bild dieser spezifische Wärme-Fleck."

Vergleich: Es ist wie wenn ein Übersetzer lernt, dass das deutsche Wort "Haus" immer mit dem englischen Wort "House" übersetzt wird. Er lernt die Paare, statt das Englische einfach zu raten.

2. Die logische Übertragung (VGII)
Jetzt kommt das fehlende Wärmesicht-Auge ins Spiel. Das System nimmt nur das sichtbare Bild.

Es zerlegt das Bild in die bekannten Bausteine aus dem Wörterbuch.
Dann nutzt es eine künstliche Intelligenz (ein großes Sprachmodell), die wie ein erfahrener Detektiv agiert. Sie schaut sich die sichtbaren Bausteine an und sagt: "Okay, hier ist ein Auto. Ein Auto hat einen heißen Motor. Also füge ich den passenden 'heißen Motor'-Baustein hinzu."
Vergleich: Stell dir vor, du siehst nur den Schatten eines Menschen an der Wand. Ein Experte kann daraus schließen: "Da ist ein Kopf, also muss da auch ein Körper sein." Er fügt den fehlenden Teil logisch hinzu, ohne zu raten.

3. Das perfekte Mischen (AFRI)
Zum Schluss werden die sichtbaren Details (die klaren Ränder) und die neu hinzugefügten Wärme-Details (die heißen Stellen) wieder zusammengefügt.

Das System ist sehr vorsichtig: Es behält die klaren Linien des sichtbaren Bildes bei, fügt aber die Wärmeinformationen genau dort ein, wo sie hingehören.
Vergleich: Es ist wie beim Kochen. Du hast eine klare Suppe (sichtbares Bild). Du würzt sie mit Gewürzen (Wärme), die du basierend auf dem Aussehen der Zutaten hinzugefügt hast. Das Ergebnis schmeckt perfekt, ohne dass du die Zutaten "erfunden" hast.

Warum ist das so besonders?

Die meisten anderen Methoden versuchen, das fehlende Bild wie ein Künstler zu malen (Pixel für Pixel). Das führt oft zu Unsicherheiten und seltsamen Artefakten.

Diese Methode ist wie ein Architekt, der einen Bauplan hat:

Sie bauen nicht auf dem Bauchgefühl, sondern auf festen Regeln (dem Wörterbuch).
Sie nutzen einen "schwachen Hinweis" (die KI als Detektiv), um nur das Nötigste hinzuzufügen.
Das Ergebnis ist stabil, verständlich und funktioniert auch, wenn das Wärmesicht-Auge komplett fehlt.

Das Ergebnis

In Tests hat sich gezeigt, dass diese Methode Bilder erzeugt, die fast so gut sind wie wenn beide Augen funktioniert hätten.

Für Roboter und Autos: Sie können auch bei Dunkelheit oder Nebel Objekte sicher erkennen.
Für Sicherheit: Man sieht nicht nur Wärme, sondern auch die klaren Konturen von Menschen oder Fahrzeugen.

Zusammengefasst: Statt das fehlende Bild zu "halluzinieren", nutzt dieses System ein gelerntes Wissen über Zusammenhänge, um das fehlende Puzzleteil logisch und präzise zu ergänzen. Es ist der Unterschied zwischen "Raten" und "Schlussfolgern".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Verschmelzung von Infrarot- (IR) und sichtbaren (VIS) Bildern ist entscheidend für robuste Wahrnehmungssysteme in Überwachung, Robotik und autonomen Fahrzeugen. Die meisten bestehenden Methoden gehen jedoch davon aus, dass beide Modalitäten sowohl während des Trainings als auch der Inferenz verfügbar sind.
In realen Szenarien fehlt die Infrarot-Modalität oft (z. B. bei rein visuellen Testdaten). Herkömmliche Ansätze versuchen in solchen Fällen, fehlende IR-Bilder im Pixelraum zu generieren (z. B. mittels GANs oder Diffusionsmodellen) und diese dann zu fusionieren. Dies führt jedoch zu mehreren Problemen:

Mangelnde Interpretierbarkeit: Die Generierung ist ein „Black-Box"-Prozess ohne physikalische Konsistenz.
Instabilität: Es entstehen oft Halluzinationen, verlorene Strukturdetails oder unkontrollierte thermische Hinweise.
Hoher Rechenaufwand: Pixelbasierte Generierungsmodelle sind oft ressourcenintensiv.

Das Ziel dieser Arbeit ist es, eine robuste Fusionsmethode zu entwickeln, die auch ohne echte IR-Eingabedaten funktioniert, indem sie IR-Informationen direkt aus dem sichtbaren Bild ableitet, ohne dabei auf eine reine Pixel-Generierung zurückzugreifen.

2. Methodik

Die Autoren schlagen einen dictionariesgeführten, coefficient-domänen-basierten Ansatz vor. Statt Bilder im Pixelraum zu generieren, werden beide Modalitäten in einen gemeinsamen, interpretierbaren Raum aus „Atomen" (Dictionary) und Koeffizienten projiziert. Die Pipeline besteht aus drei Hauptkomponenten:

A. Joint Shared-dictionary Representation Learning (JSRL)

Ziel: Erlernen eines gemeinsamen konvolutionalen Wörterbuchs ( $D$ ), das sowohl IR- als auch VIS-Bilder auf einen einheitlichen Atomraum abbildet.
Mechanismus: Ein tiefes Netzwerk (basierend auf dem Prinzip des „unfolding" von Optimierungsproblemen) lernt die Koeffizienten ( $S_{vis}, S_{ir}$ ) und das Wörterbuch $D$ gemeinsam.
Vorteil: Dies schafft eine stabile, interpretierbare Basis, in der strukturelle Korrespondenzen zwischen den Modalitäten auf Atom-Ebene definiert sind.

B. VIS-Guided IR Inference (VGII)

Ziel: Inferenz der fehlenden IR-Koeffizienten basierend auf den VIS-Koeffizienten.
Mechanismus:
1. Das sichtbare Bild wird durch das gelernte Wörterbuch in Koeffizienten ( $\tilde{S}_{vis}$ ) kodiert.
2. Ein Inferenznetzwerk (RIN) überträgt diese Koeffizienten in pseudo-IR-Koeffizienten ( $S^{(0)}_{pir}$ ).
3. Semantische Verfeinerung: Ein eingefrorenes Large Language Model (LLM) dient als schwacher semantischer Prior. Es analysiert das rekonstruierte pseudo-IR-Bild und das Original-VIS-Bild und generiert textbasierte Features. Diese steuern eine lineare Modulation (Affine Transformation) der Koeffizienten, um thermische Details zu verbessern, ohne Pixel zu generieren.
Ergebnis: Eine kontrollierte, schrittweise Verfeinerung der IR-Informationen im Koeffizientenraum.

C. Adaptive Fusion via Representation Inference (AFRI)

Ziel: Adaptive Verschmelzung der VIS-Strukturen und der inferierten IR-Hinweise.
Mechanismus: Ein Reasoning Fusion Network (RFN) nutzt Fenster-Aufmerksamkeit (Window Attention) und konvolutionale Mischung, um adaptive Gewichte für jeden Dictionary-Atom zu lernen.
- Strukturreiche Kanten werden bevorzugt aus den VIS-Koeffizienten übernommen.
- Thermische Signale werden aus den inferierten IR-Koeffizienten übernommen.
Rekonstruktion: Die fusionierten Koeffizienten werden mit dem gemeinsamen Wörterbuch zurück in den Bildraum projiziert.

Der gesamte Prozess folgt einer geschlossenen Schleife: Encode $\rightarrow$ Transfer $\rightarrow$ Fuse $\rightarrow$ Reconstruct.

3. Hauptbeiträge

Dictionary-geführte Koeffizienten-Domäne: Der erste Rahmen, der die gesamte Fusion (Kodierung, Transfer, Fusion, Rekonstruktion) im Koeffizientenraum unter einem gemeinsamen Wörterbuch durchführt. Dies vermeidet die Instabilität der Pixel-Generierung und erhöht die Interpretierbarkeit.
Kontrollierbare Vervollständigung mit schwachem semantischem Prior: Die Einführung eines eingefrorenen LLM als leichter semantischer Prior, der nur als lineare Modulation der Koeffizienten wirkt. Dies ermöglicht eine stabile Korrektur der VIS-zu-IR-Übertragung ohne die Einführung von Artefakten oder Instabilitäten.
Effizienz und Einfachheit: Das Training erfordert keine komplexen adversariellen oder Diffusions-Mechanismen. Die Inferenz benötigt nur ein sichtbares Bild und das geteilte Wörterbuch, was das System ressourcenschonend und leicht einsetzbar macht.

4. Ergebnisse

Die Methode wurde auf den Datensätzen FLIR, MSRS und KAIST evaluiert und mit zehn State-of-the-Art-Methoden verglichen.

Qualitative Ergebnisse: Die fusionierten Bilder zeigen eine überlegene Detailtreue, einen besseren Kontrast und eine realistischere Darstellung thermischer Informationen im Vergleich zu Methoden, die auf Pixel-Generierung basieren.
Quantitative Ergebnisse: Die Methode erreicht in Metriken wie Average Gradient (AG), Edge Intensity (EI) und Spatial Frequency (SF) konsistent die besten oder zweitbesten Werte, obwohl sie keine echte IR-Eingabe erhält.
Downstream-Aufgaben: In Aufgaben wie Objekterkennung (YOLOv5s) und semantischer Segmentierung (SegFormer) erzielt die Methode Leistungen, die mit vollständigen Zwei-Modalitäts-Fusionsmethoden vergleichbar sind, und übertrifft diese in einigen Metriken sogar.
Ablationsstudie: Die Studie bestätigt, dass sowohl das gemeinsame Wörterbuch als auch die LLM-Modulation entscheidend für die Leistung sind. Ohne das Wörterbuch entstehen unscharfe Ergebnisse; ohne LLM fehlen wichtige semantische thermische Details.

5. Bedeutung und Fazit

Dieses Paper stellt einen Paradigmenwechsel dar: Statt fehlende Daten durch generative Black-Box-Modelle im Pixelraum zu „erfinden", wird die Fusion als interpretierbarer Inferenzprozess im Koeffizientenraum behandelt.

Robustheit: Die Methode ist besonders wertvoll für Szenarien, in denen IR-Sensoren ausfallen oder nicht verfügbar sind, aber dennoch eine robuste Nachtsicht oder Objekterkennung erforderlich ist.
Interpretierbarkeit: Durch die Arbeit im Dictionary-Coeficient-Raum bleiben physikalische Konsistenzen und Prioritäten erhalten.
Effizienz: Der Verzicht auf aufwendige Generierungsmodelle macht die Lösung für Echtzeitanwendungen attraktiv.

Zusammenfassend bietet „Missing No More" einen neuen, theoretisch fundierten Ansatz, um die Lücke bei fehlenden Infrarotdaten zu schließen, ohne dabei die Qualität und Stabilität der Bildfusion zu opfern.