TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een foto maakt van een drukke straat met een gewone camera (die rood, groen en blauw ziet). Nu wil je diezelfde foto zien alsof je een warmtecamera hebt. Een warmtecamera ziet niet de kleuren, maar de hitte: een motor die draait is gloeiend heet, een geparkeerde auto is koel, en een mens straalt warmte uit.

Het probleem is dat echte warmtefoto's heel duur en zeldzaam zijn om te maken. Wetenschappers proberen daarom met computers die gewone foto's om te zetten in nep-warmtefoto's. Maar tot nu toe waren die computers een beetje dom: ze keken alleen naar de vorm en kleur van de auto en dachten: "Auto? Dan moet hij heet zijn." Ze wisten niet dat een geparkeerde auto koud is en een rijdende auto heet.

TherA is de nieuwe, slimme oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald in alledaags taal:

1. De "Warmte-Fysicus" (TherA-VLM)

Stel je voor dat je een kunstenaar hebt die foto's schildert. De oude kunstenaars keken alleen naar de lijntekening. TherA heeft echter een speciaal assistent ingeschakeld: een "warmte-fysicus" (een slimme AI die begrijpt hoe hitte werkt).

Hoe het werkt: Als je een foto van een auto geeft, kijkt deze fysicus niet alleen naar de auto. Hij vraagt zich af: "Is de motor aan? Is het regenen? Is het nacht?"
De analogie: Het is alsof je een schilder een opdracht geeft: "Schilder deze auto." De oude methodes schilderden een auto die altijd gloeide. TherA's fysicus zegt: "Wacht, deze auto staat geparkeerd. Hij moet koud zijn. Maar die andere auto rijdt, die moet heet zijn."
Het resultaat: De fysicus maakt een geheime code (een embedding) die alle warmte-informatie bevat.

2. De "Magische Vertaler" (De Diffusion Model)

Deze geheime code wordt dan gegeven aan de "magische vertaler" (de generator). Deze vertaler is als een zeer getalenteerde schilder die een foto kan maken op basis van die code.

Controleerbaarheid: Dit is het coolste deel. Jij, de gebruiker, kunt de schilder vertellen wat hij moet doen.
- Tekst: Je kunt typen: "Maak het regenachtig" of "Maak het nacht." De AI past de warmte aan (regen koelt af, nacht is donkerder).
- Voorbeeldfoto: Je kunt een foto van een geparkeerde auto laten zien en zeggen: "Maak deze auto ook zo koud." De AI pakt die "koude sfeer" en past die toe op jouw foto.

3. Waarom is dit zo belangrijk?

Vroeger waren de nep-warmtefoto's vaak onrealistisch. Een geparkeerde auto zag eruit alsof hij brandde, of een mens leek op een ijsklomp. Dat is slecht voor het trainen van robots of zelfrijdende auto's, want die moeten leren wat echt heet is.

TherA maakt foto's die fysiek kloppen:

Een rijdende auto heeft warme uitlaatgassen.
Een geparkeerde auto is koel.
Een gebouw dat de hele dag in de zon heeft gestaan, is 's avonds nog warm.

Samenvattend

TherA is als het geven van een fysicustitel aan een kunstmatige intelligentie. In plaats van blindelings te raden hoe warm iets is, "denkt" de AI eerst na over de situatie (is de motor aan? is het koud buiten?) en vertaalt die gedachte pas daarna naar een warmtefoto.

Hierdoor krijgen we eindelijk realistische, controleerbare warmtefoto's die kunnen helpen om onze wereld veiliger en slimmer te maken, zonder dat we miljoenen echte warmtecamera's hoeven te kopen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Thermische infrarood (TIR) beeldvorming is cruciaal voor waarneming in omstandigheden met lage zichtbaarheid (bijv. 's nachts, bij mist), maar het verzamelen en annoteren van grote TIR-datasets is extreem duur en tijdrovend vanwege de kostbare sensoren en de complexiteit van het labelen van textuurarme beelden.

Bestaande oplossingen om TIR-gegevens te synthetiseren via RGB-naar-TIR-translatie (beeldvertaling) hebben twee fundamentele tekortkomingen:

Gebrek aan fysica: De meeste huidige modellen behandelen de translatie als een simpele "stijloverdracht" op pixelniveau. Ze negeren de onderliggende thermische fysica (zoals emissiviteit van materialen, actieve warmtebronnen en omgevingsfactoren). Dit leidt tot onrealistische resultaten, zoals een geparkeerde auto die even heet lijkt als een rijdende auto.
Gebrek aan controle: Bestaande methoden zijn vaak deterministisch (één RGB-input leidt tot één TIR-output) en bieden geen manier om specifieke thermische eigenschappen (zoals het weer, het tijdstip van de dag of de staat van een object) expliciet te sturen zonder de geometrie van het beeld te veranderen.

2. Methodologie: Het TherA Framework

TherA introduceert een nieuw raamwerk dat een Thermal-Aware Vision-Language Model (TherA-VLM) koppelt aan een latent-diffusion model. Het proces verloopt in twee fasen:

A. De R2T2 Dataset

Om het model te trainen, hebben de auteurs R2T2 ontwikkeld, een dataset met 100.000 tripletten bestaande uit:

Een RGB-afbeelding.
De bijbehorende TIR-afbeelding.
Een gestructureerde, "thermisch bewust" tekstuele beschrijving.
Deze tekstuele beschrijvingen worden gegenereerd door een multimodaal LLM (Gemini 2.5 Pro) dat analyseert hoe de RGB-scène zich manifesteert in het thermische domein. De beschrijvingen bevatten gestructureerde informatie over:
Scène: Tijd van de dag, weer, locatie.
Objecten: Categorie, materiaal, positie.
Warmtestatus: Actief (warmte-emitterend, bijv. een rijdende auto) of passief (koel, bijv. een geparkeerde auto).

B. TherA-VLM (Thermal-Aware Vision-Language Model)

Dit is het kerncomponent dat de fysica begrijpt.

Architectuur: Gebaseerd op LLaVA 1.5, gefinetuned met LoRA (Low-Rank Adaptation).
Functie: Het neemt een RGB-afbeelding en een gebruikersprompt (tekst of referentie-afbeelding) als input. In plaats van een vrije tekst te genereren, produceert het een compacte, gestructureerde thermische embedding ( $h_N$ ).
Voordeel: Deze embedding encodeert de thermische context (materialen, activiteit, omgeving) en dient als een fysiek onderbouwde voorwaarde voor de diffusiemodel, in plaats van alleen visuele stijl.

C. VLM-Geconditioneerde Diffusie

Het tweede onderdeel is een latent-diffusion model (gebaseerd op Stable Diffusion) dat de TIR-afbeelding genereert.

Input: Het model ontvangt de noisige TIR-latent en de RGB-latent.
Conditioning: De thermische embedding van TherA-VLM wordt via een TE-Adapter (Thermal Embedding Adapter) geïnjecteerd in de cross-attention lagen van de UNet.
Controlemechanisme: Het model ondersteunt twee vormen van controle:
1. Tekst-gestuurd: De gebruiker geeft een prompt (bijv. "regenachtig weer" of "nacht") om de thermische eigenschappen van de hele scène te veranderen.
2. Referentie-gestuurd: De gebruiker geeft een andere RGB-afbeelding als referentie (bijv. een afbeelding van een actieve auto) om specifieke objecten in de output te laten overeenkomen met de warmte-eigenschappen van die referentie, zonder de geometrie te veranderen.

3. Belangrijkste Bijdragen

Thermal-Aware VLM Conditioning: TherA is het eerste systeem dat een vision-language model gebruikt om een compacte, fysiek betekenisvolle embedding te genereren die de diffusie sturen op basis van thermische principes (emissiviteit, activiteit) in plaats van alleen visuele stijl.
Controleerbare Thermische Modulatie: Het biedt ongeëvenaarde controle over de thermische uitkomst via tekst of referentie-afbeeldingen, waardoor gebruikers kunnen schakelen tussen scenario's (bijv. dag/nacht, actief/geparkeerd) terwijl de scène-geometrie behouden blijft.
R2T2 Dataset: Een nieuwe, grote dataset met gestructureerde thermische beschrijvingen die essentieel is voor het leren van thermisch redeneren.
State-of-the-Art Prestaties: TherA presteert significant beter dan bestaande methoden op standaard benchmarks.

4. Resultaten

De auteurs evalueren TherA op de M3FD en FLIR datasets, evenals op zero-shot generalisatie naar CART en andere RGB-only datasets.

Kwantitatieve Prestaties: TherA behaalt state-of-the-art resultaten op alle metrics (PSNR, SSIM, FID, LPIPS). In vergelijking met de beste bestaande methoden (zoals DiffV2IR en F-ViTA) toont TherA een gemiddelde toename van 33% in zero-shot translatieprestaties.
Kwalitatieve Verbetering:
- Fysieke consistentie: TherA onderscheidt correct tussen actieve (hete) en passieve (koude) objecten. Bijvoorbeeld, een geparkeerde auto wordt koel weergegeven, terwijl een rijdende auto warmte uitstraalt via de uitlaat en wielen.
- Zero-shot Generalisatie: Het model generaliseert uitstekend naar onbekende domeinen (zoals Cityscapes of NuScenes) zonder extra training, terwijl concurrenten vaak artefacten of onrealistische warmtepatronen vertonen.
- Downstream Taken: Pseudo-TIR-data gegenereerd door TherA verbetert de prestaties van downstream taken zoals thermische segmentatie en RGB-TIR beeldmatching aanzienlijk, zelfs beter dan training op echte TIR-data in sommige gevallen.

5. Betekenis en Impact

TherA is een doorbraak in het veld van multispectrale beeldvorming omdat het de kloof overbrugt tussen visuele data en thermische fysica.

Oplossing voor Data-schaarste: Het maakt het mogelijk om grote, geannoteerde en fysiek realistische TIR-datasets te genereren, wat essentieel is voor het trainen van autonome voertuigen en robots.
Controleerbaarheid: Het introduceert een nieuwe dimensie van controle waarbij gebruikers de thermische "toestand" van een scène kunnen manipuleren (bijv. het simuleren van dag/nacht-cycli of het veranderen van de status van objecten), wat eerder onmogelijk was met puur generatieve modellen.
Fysiek Onderbouwde AI: Het paper demonstreert dat het integreren van fysica-gedreven redeneren (via een VLM) superieur is aan pure pixel-gebaseerde stijltranslatie voor wetenschappelijk en technisch toepassingsgebieden.

Kortom, TherA transformeert RGB-naar-TIR translatie van een puur visueel probleem naar een fysiek onderbouwd, controleerbaar proces, wat leidt tot realistischere en bruikbaardere synthetische thermische data.

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

1. De "Warmte-Fysicus" (TherA-VLM)

2. De "Magische Vertaler" (De Diffusion Model)

3. Waarom is dit zo belangrijk?

Samenvattend

1. Het Probleem

2. Methodologie: Het TherA Framework

A. De R2T2 Dataset

B. TherA-VLM (Thermal-Aware Vision-Language Model)

C. VLM-Geconditioneerde Diffusie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation