S2R-HDR: A Large-Scale Rendered Dataset for HDR Fusion

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Fotograf im Regen"

Stell dir vor, du möchtest einen Fotografen trainieren, der perfekt Bilder macht, wenn es regnet, die Sonne blendet oder sich Autos schnell bewegen. Das Problem ist: Um ihn zu trainieren, müsstest du ihn tausende Male in genau diese Situationen schicken.

In der echten Welt ist das aber ein Albtraum:

Es ist zu teuer: Du brauchst teure Kameras und musst warten, bis das perfekte Licht da ist.
Es ist unkontrollierbar: Wenn du ein Tier oder ein Auto fotografieren willst, kannst du nicht einfach sagen: „Stopp! Bewege dich genau so!" oder „Die Sonne scheint jetzt genau hier!".
Es gibt zu wenig Daten: Bisherige Datensätze waren wie ein kleiner Kochtopf Suppe für ein riesiges Festmahl. Die KI lernte daraus, war aber im echten Leben oft verwirrt.

Die Lösung: Die „perfekte Videospiele-Welt" (S2R-HDR)

Die Autoren haben sich gedacht: „Warum warten wir auf die echte Welt, wenn wir eine perfekte Welt erschaffen können?"

Sie haben S2R-HDR gebaut. Stell dir das wie einen riesigen, ultra-realistischen Videospiele-Set (mit der Engine Unreal Engine 5) vor.

Die Menge: Sie haben 24.000 perfekte Szenen generiert. Das ist wie ein riesiger Vorrat an Zutaten für den Fotografen.
Die Vielfalt: In dieser Welt gibt es alles: Hunde, die rennen, Autos, die rasen, Menschen, die tanzen, und Lichtverhältnisse von strahlendem Sonnenschein bis zur dunklen Nacht.
Die Magie: Da es ein Computerprogramm ist, können sie die Kamera und das Licht exakt steuern. Sie können sagen: „Lass die Sonne jetzt genau 3 Sekunden lang so stark scheinen, dass alles überbelichtet ist." Das ist in der echten Welt fast unmöglich.

Das Ergebnis ist eine riesige Bibliothek an „perfekten Trainingsdaten", die in der echten Welt so nicht existieren würden.

Das neue Problem: Der „Akzent" (Die Lücke zwischen Simulation und Realität)

Aber hier kommt der Haken: Ein Fotograf, der nur in Videospiele-Welten trainiert hat, sieht die echte Welt vielleicht etwas „falsch".

In der Simulation sind die Texturen (z. B. Gras oder Haut) zu glatt.
Das Licht ist zu perfekt.
Es ist, als würde jemand, der nur in einem deutschen Dorf gelebt hat, plötzlich nach Japan reisen. Er versteht die Sprache (die Bilder), hat aber einen starken Akzent und verpasst die kleinen Nuancen.

Wenn man den KI-Modell direkt auf echte Fotos loslässt, macht es Fehler (z. B. Geisterbilder bei schnellen Bewegungen oder überbelichtete Stellen).

Der „Übersetzer" (S2R-Adapter)

Um dieses Problem zu lösen, haben die Autoren einen cleveren Trick erfunden, den sie S2R-Adapter nennen.

Stell dir das so vor:

Der Fotograf (die KI) hat sein Wissen aus der Videospiele-Welt (S2R-HDR) gelernt.
Der Adapter ist wie ein Übersetzer oder ein Dolmetscher, den man dem Fotografen umhängt.
Dieser Dolmetscher sagt dem Fotografen: „Hey, in der echten Welt ist das Gras etwas rauher und das Licht etwas härter. Vergiss nicht, was du gelernt hast, aber passe deine Augen an die neue Realität an."

Wie funktioniert das genau?
Der Adapter hat zwei Arme:

Arm 1 (Der Bewahrer): Er sorgt dafür, dass der Fotograf nicht vergisst, was er in der Videospiele-Welt gelernt hat (z. B. wie man Objekte erkennt).
Arm 2 (Der Anpasser): Er lernt schnell die neuen Eigenheiten der echten Welt (z. B. wie echte Haut aussieht).

Das Tolle daran: Dieser Dolmetscher funktioniert auch, wenn der Fotograf keine „Lösungen" (Ground Truth) hat. Er kann sich also selbstständig an neue, unbekannte Situationen anpassen, während er gerade ein Foto macht.

Das Ergebnis: Ein Super-Fotograf

Wenn man diesen Ansatz testet, passiert etwas Wunderbares:

Die KI, die nur auf den künstlichen Daten trainiert wurde, wird durch den Adapter zum besten Fotografen der Welt.
Sie macht keine Geisterbilder mehr, wenn sich jemand schnell bewegt.
Sie kann extrem helle Stellen (wie die direkte Sonne) perfekt einfangen, ohne dass alles weiß und leer aussieht.

Zusammenfassung in einem Satz

Die Autoren haben eine riesige, perfekte Videospiele-Welt gebaut, um KI zu trainieren, und einen cleveren „Übersetzer" erfunden, damit diese KI dann auch in unserer unperfekten, echten Welt brillante Fotos macht – ohne dass man tausende teure reale Fotos sammeln muss.

Warum ist das wichtig?
Weil es für Dinge wie autonomes Fahren (wo Kameras bei Regen und Sonne perfekt funktionieren müssen) oder für unsere Handy-Kameras eine Lösung bietet, wie man KI trainiert, ohne auf die Natur warten zu müssen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Das Training von Deep-Learning-Modellen für die High Dynamic Range (HDR)-Fusion (die Kombination mehrerer Belichtungsbilder zu einem HDR-Bild) wird stark durch die Verfügbarkeit von Trainingsdaten eingeschränkt.

Datenknappheit: Das Sammeln großer, hochwertiger HDR-Datensätze aus dynamischen realen Szenen ist extrem kostspielig, zeitaufwendig und technisch schwierig.
Eingeschränkte Generalisierung: Bestehende Datensätze (z. B. SCT, Challenge123) sind oft klein (wenige hundert bis tausend Proben), künstlich kontrolliert und decken nicht die volle Vielfalt realer Umgebungen ab (z. B. direkte Sonneneinstrahlung, große Bewegungen, Tiere, Fahrzeuge).
Domain Gap: Modelle, die auf synthetischen Daten trainiert werden, leiden unter einer Diskrepanz (Domain Gap) zu realen Daten, insbesondere bei Texturen und Beleuchtungseigenschaften, was die Leistung in der Praxis mindert.

Methodik

Die Autoren schlagen einen zweigleisigen Ansatz vor, der aus der Erstellung eines neuen Datensatzes und einer speziellen Domain-Adaptation-Methode besteht.

1. S2R-HDR Datensatz (Synthetic-to-Real HDR)

Dies ist der erste großangelegte, hochwertige synthetische Datensatz speziell für die HDR-Fusion.

Generierung: Der Datensatz wurde mit Unreal Engine 5 erstellt, um fotorealistische HDR-Szenen zu rendern.
Skala: Er umfasst 24.000 HDR-Bilder (in 1.000 Sequenzen zu je 24 Frames), was ca. 166-mal mehr als typische Datensätze ist.
Vielfalt & Kontrolle:
- Dynamik: Enthält diverse Bewegungstypen (Menschen, Tiere, Fahrzeuge) und große Kamerabewegungen.
- Beleuchtung: Deckt extreme HDR-Szenarien ab (direktes Sonnenlicht, Dämmerung, Nacht) sowie verschiedene Innen- und Außenbereiche.
- Technische Umsetzung: Ein benutzerdefinierter Rendering-Pipeline stellt sicher, dass die Daten im linearen HDR-Raum (EXR-Format) gespeichert werden, ohne Tone-Mapping oder Gamma-Korrektur, um Datenverluste zu vermeiden. Zudem wird Kamerazittern simuliert, um reale Aufnahmebedingungen nachzubilden.

2. S2R-Adapter (Domain Adaptation)

Um die Lücke zwischen synthetischen (S2R-HDR) und realen Daten zu schließen, wurde der S2R-Adapter entwickelt. Dies ist eine „Plug-and-Play"-Methode zur Domain-Adaptation, die auf Parameter-Effizientem Fine-Tuning (PEFT) basiert.

Architektur: Der Adapter besteht aus zwei parallelen Zweigen, die an vortrainierte Schichten (Linear- oder Convolution-Layers) angehängt werden:
1. Share Branch (Wissens-Sharing): Ein Low-Rank-Adapter, der das auf synthetischen Daten gelernte Wissen bewahrt und verhindert, dass es durch das Fine-Tuning auf realen Daten vergessen wird (Vermeidung von „Catastrophic Forgetting").
2. Transfer Branch (Wissens-Transfer): Ein High-Rank-Adapter, der spezifisches Wissen aus den realen Ziel-Daten extrahiert, um die Domain-Disparität (z. B. Texturen) zu überbrücken.
Skalierungsfaktoren: Die Ausgabe beider Zweige wird durch Faktoren $\alpha_s$ und $\alpha_t$ gewichtet, die den Trade-off zwischen bewahrtem Wissen und neuem Domänenwissen steuern.
Test-Time Adaptation (TTA): Für Szenarien ohne Ground-Truth-Labels (unbeschriftete reale Daten) wird ein Mean-Teacher-Framework verwendet. Die Skalierungsfaktoren werden dynamisch basierend auf der Unsicherheit des Modells (gemessen durch Varianz bei augmentierten Eingaben) angepasst. Bei hoher Unsicherheit (großer Domain-Shift) wird mehr Gewicht auf den Transfer-Zweig gelegt.

Wesentliche Beiträge

S2R-HDR Datensatz: Ein riesiger, vielfältiger und kontrollierbarer synthetischer Datensatz mit Ground-Truth für HDR-Fusion, der die Limitationen bestehender kleiner Datensätze überwindet.
S2R-Adapter: Eine innovative Domain-Adaptation-Strategie, die synthetisches und reales Wissen kombiniert, ohne das ursprüngliche Wissen zu vergessen. Sie funktioniert sowohl mit beschrifteten als auch mit unbeschrifteten Daten.
State-of-the-Art Ergebnisse: Die Kombination aus dem Datensatz und dem Adapter führt zu neuen Bestleistungen in der HDR-Fusion auf realen Datensätzen.

Ergebnisse

Die Experimente wurden auf den realen Datensätzen SCT und Challenge123 durchgeführt.

Quantitative Ergebnisse: Modelle, die auf S2R-HDR trainiert und mit S2R-Adapter adaptiert wurden, erzielten auf beiden Datensätzen die besten Ergebnisse.
- Auf dem Challenge123-Datensatz wurde eine Verbesserung von ca. 2 dB im PSNR-µ gegenüber Baseline-Modellen erreicht.
- Im Vergleich zu Modellen, die direkt nur auf realen Daten trainiert wurden, zeigte der Ansatz eine deutlich bessere Generalisierungsfähigkeit.
Qualitative Ergebnisse: Visuelle Vergleiche zeigen eine signifikante Reduktion von Geisterartefakten (Ghosting) bei großen Bewegungen und eine bessere Wiederherstellung von Details in extrem hellen Bereichen (z. B. direkte Sonne).
Ablationsstudien: Die Studie bestätigt, dass beide Zweige des Adapters (Share und Transfer) notwendig sind und dass die dynamische Anpassung der Skalierungsfaktoren während des Test-Time-Adaptation entscheidend für die Leistung ist. Zudem wird gezeigt, dass der Adapter das „Vergessen" von Wissen im Vergleich zum einfachen Fine-Tuning minimiert.

Bedeutung

Die Arbeit bietet eine praktikable Lösung für ein fundamentales Problem im Bereich der computergestützten Fotografie und des autonomen Fahrens: die Datenknappheit bei HDR-Aufnahmen.

Skalierbarkeit: Sie demonstriert, dass hochwertige synthetische Daten in Kombination mit fortschrittlicher Domain-Adaptation effektiv reale Daten ersetzen oder ergänzen können.
Generalisierung: Der Ansatz ermöglicht es, Modelle zu trainieren, die robust gegenüber komplexen, dynamischen Szenen sind, für die keine großen annotierten realen Datensätze existieren.
Ressourcen: Da der Code und der Datensatz öffentlich verfügbar sind, fördert dies die weitere Forschung in der HDR-Fusion und im Transfer-Learning für visuelle Aufgaben.