S2R-HDR: A Large-Scale Rendered Dataset for HDR Fusion

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een fotograaf bent die prachtige foto's wil maken van een drukke stad. Je wilt niet alleen de heldere zon zien, maar ook de donkere hoekjes in de straten, en je wilt dat alles scherp is, zelfs als er mensen en auto's hard voorbij racen. Dit noemen we HDR (High Dynamic Range): een foto die zowel de felste zon als de donkerste schaduwen perfect laat zien.

Het probleem? Het is ontzettend moeilijk om echte foto's te maken die dit kunnen. Je hebt speciale camera's nodig, en als er iets beweegt (zoals een hond of een auto), krijg je vaak dubbele beelden of vage plekken. Bovendien is het verzamelen van duizenden van zulke perfecte foto's duur en tijdrovend.

Hier komt dit nieuwe onderzoek (S2R-HDR) om de hoek kijken. Het is alsof ze een virtuele filmstudio hebben gebouwd om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Virtuele Studio (Het S2R-HDR Dataset)

In plaats van te wachten op het perfecte weer en de perfecte mensen om voorbij te lopen, hebben de onderzoekers een enorme digitale wereld gecreëerd met een krachtig computerspelprogramma (Unreal Engine 5).

De "Bioscoop" van 24.000 films: Ze hebben 24.000 verschillende scènes gemaakt. Denk aan een bibliotheek met 24.000 films, elk met een ander weer, andere tijden van de dag (zon, schemering, nacht) en verschillende bewegingen (honden, mensen, auto's).
De "Perfecte Camera": In deze virtuele wereld kunnen ze de camera precies zo instellen als ze willen. Ze kunnen de zon zo fel maken dat het bijna blind maakt, of de kamer zo donker maken dat je niets ziet, en alles daartussenin.
Waarom is dit slim? Omdat ze de wereld zelf hebben gemaakt, weten ze precies hoe het er "echt" had moeten uitzien. Ze hebben een "antwoordboekje" (de grondwaarheid) voor elke foto. Bij echte foto's heb je dat nooit; je weet nooit of de dubbele beelden van een rennende hond nou echt zo hoorden of een fout van de camera waren.

2. Het "Vertaalboek" (De S2R-Adapter)

Nu komt het lastige deel. Een computer die is getraind op deze perfecte, virtuele films, is vaak niet goed in het kijken naar echte, rommelige foto's van de echte wereld. Het is alsof iemand die alleen in een zwembad heeft leren zwemmen, ineens in de oceaan moet springen. De golven en de stroming zijn anders. Dit noemen ze de "kloof" tussen synthetisch en echt.

Om dit op te lossen, hebben ze een slimme tool bedacht genaamd S2R-Adapter.

De "Twee-Oren" Strategie: Stel je voor dat je een student bent die een examen moet doen.
- Oor 1 (Deel-geheugen): Dit oor luistert naar wat hij al heeft geleerd in de virtuele wereld (hoe je beweging vastlegt, hoe licht werkt). Dit zorgt ervoor dat hij niet vergeet wat hij al weet.
- Oor 2 (Aanpassings-geheugen): Dit oor luistert naar de echte wereld. Het leert: "Ah, in de echte wereld zijn de bomen wat ruiger en de schaduwen anders."
De Slimme Mix: De tool combineert deze twee oren. Als de foto erg lijkt op de virtuele wereld, gebruikt hij meer van zijn oude kennis. Als de foto heel anders is (bijvoorbeeld een heel donkere, ruwe straat), schakelt hij meer over op zijn nieuwe kennis van de echte wereld.
Zelflerend: Het allercoolste is dat deze tool zelfs werkt als je geen antwoordboekje hebt. Als de computer een nieuwe, onbekende foto ziet, kan hij zichzelf een beetje bijsturen om de fouten te corrigeren, net als een muzikant die zijn instrument even stemt voordat hij begint te spelen.

3. Het Resultaat

Wat levert dit op?

Geen meer "spookbeelden": Als er een auto hard voorbij rijdt, zie je geen dubbele auto's meer.
Meer details: Je ziet details in de zonneschijn én in de donkere schaduwen tegelijkertijd.
Beter dan ooit: De modellen die met deze nieuwe methode zijn getraind, doen het beter dan alle vorige methoden, zelfs op moeilijke foto's met direct zonlicht of grote bewegingen.

Samenvattend

De onderzoekers hebben een gigantische, perfecte virtuele wereld gebouwd om hun AI te trainen, en vervolgens een slimme vertaalsleutel bedacht om die kennis over te brengen naar de rommelige, echte wereld. Het is alsof je eerst een piloot traint in een perfecte simulator, en hem daarna een bril geeft die hem helpt de echte, winderige lucht te navigeren.

Dit maakt het mogelijk om in de toekomst veel betere foto's en video's te maken van dynamische scènes, zonder dat we duizenden dure camera's en jarenlang wachten nodig hebben.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De generalisatie van leer-gedreven High Dynamic Range (HDR) fusietechnieken wordt momenteel beperkt door de beschikbaarheid van trainingsdata. Het verzamelen van grote hoeveelheden HDR-afbeeldingen uit dynamische scènes in de echte wereld is kostbaar, tijdrovend en technisch uitdagend.

Beperkingen van bestaande datasets: Bestaande datasets (zoals Kalantari & Ramamoorthi, 2017; Tel et al., 2023; Kong et al., 2024) zijn vaak klein (vaak <200 samples), beperkt tot kunstmatig gecontroleerde omgevingen en missen diversiteit in beweging (bijv. dieren, voertuigen) en extreme lichtomstandigheden (zoals direct zonlicht).
Overfitting: Modellen getraind op deze kleine datasets overfitten vaak en presteren slecht in complexe scenario's met grote bewegingen of hoge dynamische bereiken.
Synthetische data gap: Hoewel synthetische data een oplossing lijkt, bestaat er een aanzienlijke "domain gap" tussen gerenderde data en echte sensor-data, vooral wat betreft textuurverdeling en natuurlijke lichtinval.

Methodologie

De auteurs introduceren een tweeledige aanpak om deze problemen op te lossen: een nieuw dataset en een domeinadaptatiemethode.

1. De S2R-HDR Dataset

Dit is de eerste grote, hoogwaardige synthetische dataset specifiek ontworpen voor HDR-fusie.

Generatie: Gebaseerd op Unreal Engine 5 (UE5) met gebruik van de xrfeitoria toolbox.
Schaal: Bevat 24.000 HDR-samples (1.000 sequenties van 24 frames), wat ongeveer 166 keer groter is dan typische bestaande datasets.
Kwaliteit en Realisme:
- Lineaire HDR-ruimte: De rendering-pijplijn is aangepast om tone mapping en gamma-correctie uit te sluiten, zodat de output in lineaire HDR-ruimte (EXR-formaat) blijft, wat essentieel is voor accurate HDR-taken.
- Diversiteit: De dataset omvat diverse bewegingstypen (mensen, dieren, voertuigen), omgevingen (binnen/buiten) en lichtomstandigheden (dag, schemering, nacht, direct zonlicht).
- Realistische imperfecties: Er wordt camera-trilling (camera shake) gesimuleerd om handbediende opnames na te bootsen.
Data Augmentatie: Omdat de data in lineaire HDR-formaat is, kunnen er eenvoudig verschillende LDR (Low Dynamic Range) beelden worden gegenereerd door blootstelling aan te passen.

2. S2R-Adapter (Domeinadaptatie)

Om de kloof tussen synthetische data (S2R-HDR) en echte data te overbruggen, wordt een plug-and-play domeinadaptatiemethode voorgesteld.

Architectuur: De adapter bestaat uit twee takken die worden toegevoegd aan bestaande neurale netwerken (CNN of Transformer):
1. Share Branch (Deel-tak): Gebruikt een low-rank adapter (Laag-rang aanpassing) om kennis te behouden die is geleerd uit de synthetische data. Dit voorkomt "catastrophic forgetting" (het vergeten van eerder geleerde kennis).
2. Transfer Branch (Overdracht-tak): Gebruikt een high-rank adapter om domeinspecifieke kennis uit de echte data te leren (bijv. realistische texturen).
Trainingsstrategieën:
- Met gelabelde data: De schalingsfactoren ( $\alpha_s$ en $\alpha_t$ ) worden geleerd om de balans tussen gedeelde en overgedragen kennis te optimaliseren.
- Zonder gelabelde data (Test-Time Adaptation - TTA): Voor scenario's zonder ground-truth labels tijdens het testen, worden de schalingsfactoren dynamisch aangepast op basis van modelonzekerheid. Onzekerheid wordt gemeten door de variantie van output na data-augmentatie (blootstelling, witbalans, ruis). Bij grote domeinverschillen wordt de Transfer Branch zwaarder gewogen; bij kleine verschillen de Share Branch.
- Mean-Teacher Framework: Gebruikt voor TTA om stabiele pseudo-labels te genereren.

Belangrijkste Bijdragen

S2R-HDR Dataset: Een schaalvergroting van HDR-data van enkele honderden naar 24.000 samples met ongeëvenaarde diversiteit in beweging en licht.
S2R-Adapter: Een effectieve, parameter-efficiënte methode om synthetische modellen aan te passen aan de echte wereld, werkend zowel met als zonder ground-truth labels.
State-of-the-Art Prestaties: Bewijs dat training op grote synthetische datasets, gecombineerd met domeinadaptatie, superieur is aan training op kleine real-world datasets.

Resultaten

De methoden zijn getest op bestaande real-world datasets (SCT en Challenge123) en nieuwe real-world opnames zonder ground-truth.

Prestaties met Ground-Truth:
- Modellen getraind op S2R-HDR en geadapt met S2R-Adapter behaalden de beste resultaten op zowel de SCT als Challenge123 datasets.
- Er werd een verbetering van minimaal 0,6 dB (PSNR- $\mu$ ) en tot 2,0 dB op Challenge123 behaald ten opzichte van de beste bestaande methoden die direct op die datasets waren getraind.
- Visueel werden artefacten zoals "ghosting" bij grote bewegingen en overbelichting in zonlicht significant verminderd.
Prestaties zonder Ground-Truth (Test-Time Adaptation):
- Zelfs zonder toegang tot labels van de doeldomein, overtrof de S2R-Adapter bestaande methoden. Op de SCT-dataset werd een verbetering van 1,1 dB (PSNR- $\mu$ ) en 8,46 dB (PSNR- $\ell$ ) behaald ten opzichte van de beste baselines.
Generalisatie: Modellen getraind uitsluitend op S2R-HDR toonden superieure cross-dataset generalisatie en vereisten slechts minimale fine-tuning om state-of-the-art prestaties te bereiken.
Kennisbehoud: Ablatiestudies bevestigden dat de twee-takken structuur effectief voorkomt dat de kennis van de synthetische data wordt vergeten tijdens adaptatie.

Betekenis en Impact

Dit paper biedt een cruciale oplossing voor het gebrek aan grote, gevarieerde HDR-datasets.

Toegang tot data: Het maakt het mogelijk om HDR-modellen te trainen op schaal die fysiek onmogelijk is om met camera's te verzamelen.
Robuustheid: Het toont aan dat synthetische data, wanneer correct gebruikt met domeinadaptatie, kan leiden tot modellen die robuuster zijn in complexe, real-world situaties dan modellen getraind op beperkte real-world data.
Toekomstige toepassingen: De aanpak biedt een haalbaar pad voor generalisatie in andere computer-vision domeinen waar data-acquisitie moeilijk of duur is. De dataset en code zijn openbaar beschikbaar, wat de reproduceerbaarheid en verdere ontwikkeling in het veld stimuleert.

S2R-HDR: A Large-Scale Rendered Dataset for HDR Fusion

1. De Virtuele Studio (Het S2R-HDR Dataset)

2. Het "Vertaalboek" (De S2R-Adapter)

3. Het Resultaat

Samenvattend

Probleemstelling

Methodologie

1. De S2R-HDR Dataset

2. S2R-Adapter (Domeinadaptatie)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

Multi-Agent Home Energy Management Assistant