TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

O artigo apresenta o TherA, um framework inovador que combina um modelo de linguagem visual termicamente consciente com um tradutor baseado em difusão latente para gerar imagens infravermelhas térmicas realistas e controláveis a partir de imagens RGB, superando as limitações de abordagens anteriores ao incorporar princípios físicos térmicos e permitindo síntese diversificada com base em condições ambientais e de objetos.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang, Young-Sik Shin, Ukcheol Shin, Ayoung Kim

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma câmera normal (RGB) que vê o mundo como nós: cores, formas e luz. Agora, imagine que você quer ver o mundo como uma câmera térmica (infravermelho), que vê o calor e a energia, não as cores. Isso é incrível para ver à noite, através de fumaça ou para detectar pessoas escondidas.

O problema? Câmeras térmicas são caras e raras. Conseguir milhões de fotos térmicas para treinar computadores é difícil e demorado.

Aqui entra o TherA. Pense nele como um "Tradutor Mágico de Calor".

O Problema: A "Falsa Tradução"

Antes do TherA, existiam outros tradutores de imagem. Eles funcionavam como um pintor que só olhava para a cor da tinta. Se você mostrava um carro vermelho, o pintor o tornava "vermelho" na imagem térmica, sem pensar se o carro estava ligado ou desligado.

  • O erro: Eles faziam um carro estacionado (frio) parecer quente, e um carro em movimento (quente) parecer frio, apenas copiando a cor da pintura. Isso é como tentar adivinhar a temperatura de um café só olhando para a cor da xícara.

A Solução: O TherA e seu "Físico de Bolso"

O TherA resolve isso com uma ideia brilhante: ele não apenas traduz cores, ele entende a física do calor.

O sistema tem dois "cérebros" trabalhando juntos:

  1. O Detetive (TherA-VLM): Imagine um físico especialista em calor que olha para a foto normal e diz: "Ah, esse carro está ligado, o motor está quente e os pneus esquentaram. Aquele outro está estacionado há horas, então está frio como o asfalto. O céu está nublado, então o chão não está tão quente."

    • Em vez de apenas descrever a imagem ("um carro vermelho"), ele descreve a história térmica ("carro quente, motor ligado, dia nublado").
  2. O Pintor (O Modelo de Difusão): Este é o artista que pinta a imagem térmica. Em vez de receber apenas a foto, ele recebe as instruções do Detetive.

    • Se o Detetive disser "carro quente", o Pintor pinta o carro brilhante e quente na imagem térmica.
    • Se o Detetive disser "carro frio", o Pintor pinta o carro escuro e frio.

O Poder do Controle: "Mude o Clima!"

A parte mais legal é que o TherA é controlável. Você pode pedir mudanças que a foto original não mostra:

  • Texto: Você pode digitar: "Transforme isso em um dia chuvoso" ou "Mude para noite". O TherA entende que, à noite, o asfalto esfria e os carros parecem mais quentes em contraste. Ele recria a física do calor para aquela nova situação.
  • Referência: Você pode mostrar uma foto de um carro estacionado e pedir: "Faça este carro parecer como se estivesse estacionado". O TherA vai "esfriar" o carro na imagem térmica, mesmo que na foto original ele pareça estar ligado.

Por que isso é um superpoder?

  1. Treinamento de Robôs: Robôs e carros autônomos precisam "ver" no escuro. Com o TherA, podemos criar milhões de fotos térmicas falsas, mas realistas, para treinar esses robôs sem precisar de câmeras térmicas reais.
  2. Precisão: Diferente dos antigos, o TherA não comete erros bobos. Ele sabe que um motor de carro quente brilha no infravermelho, mas uma parede de vidro fria não.
  3. Flexibilidade: Ele permite simular cenários extremos (tempestades, noites geladas) a partir de uma única foto de dia ensolarado.

Resumo em uma Analogia

Imagine que você quer ensinar alguém a cozinhar um prato complexo, mas você não tem os ingredientes reais.

  • Os métodos antigos eram como dar uma receita baseada apenas na cor do prato final. O resultado ficava com a cor certa, mas o gosto (a física do calor) estava errado.
  • O TherA é como ter um Chef de Cozinha (o Detetive) que explica exatamente o que acontece no fogão: "O óleo está fumegando, a carne está selando, o vapor está subindo". Com essas instruções precisas, o Copo (o Pintor) consegue recriar o prato perfeito, mesmo que você só tenha a foto do prato pronto para começar.

Em resumo, o TherA é a primeira ferramenta que ensina computadores a pensar como físicos do calor para transformar fotos normais em imagens térmicas realistas e controláveis.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →