Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes una cámara normal (la que ves en tu teléfono) y una cámara térmica (la que usan los bomberos para ver a través del humo o la oscuridad). Lo ideal es tener las dos imágenes al mismo tiempo y mezclarlas para obtener una foto perfecta que tenga los detalles nítidos de la cámara normal y la capacidad de ver el calor de la térmica.

El problema es: ¿Qué pasa si en un momento crítico no tienes la cámara térmica? La mayoría de los sistemas actuales se quedan cortos o intentan "inventar" la imagen térmica desde cero, lo que a menudo resulta en fotos borrosas o con cosas que no existen (alucinaciones).

Este paper presenta una solución inteligente llamada "Missing No More" (Más no falta). Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: La "Cocina" sin Ingredientes

Imagina que eres un chef (el sistema de fusión) y tu receta requiere dos ingredientes: Tomates (la imagen visible) y Queso (la imagen infrarroja).

Los métodos antiguos: Si te falta el queso, intentan fabricarlo en la cocina usando una impresora 3D de comida. A veces sale bien, pero a menudo el queso sabe a plástico o no se mezcla bien con los tomates.
El problema real: En el mundo real, a veces el sensor térmico falla o no está disponible. Necesitas una forma de saber "dónde debería estar el queso" solo mirando los tomates.

2. La Solución: El "Diccionario de Recetas" Compartido

En lugar de intentar cocinar en la "cocina" (el espacio de píxeles, donde se ven las imágenes), los autores proponen trabajar en el "Diccionario de Recetas" (el espacio de coeficientes).

Imagina que en lugar de mezclar tomates y queso directamente, ambos ingredientes se traducen primero a una lista de instrucciones secretas (coeficientes) que comparten el mismo idioma.

El Diccionario Compartido: Es como un libro de recetas universal. Tanto los tomates como el queso tienen instrucciones en este libro.
El Truco: Cuando solo tienes los tomates, el sistema lee las instrucciones de los tomates en el libro y dice: "Ah, según esta receta, si hay un tomate en esta posición, el queso debería estar aquí, con esta textura y este calor".

3. Los Tres Pasos Mágicos (El Equipo de Trabajo)

El sistema tiene tres "chefs" que trabajan juntos:

A. El Traductor (JSRL - Aprendizaje de Representación)

Primero, el sistema aprende a traducir tanto la imagen normal como la térmica al mismo "idioma secreto" (el diccionario).

Analogía: Es como aprender que la palabra "rojo" en español y "red" en inglés significan lo mismo. Así, cuando veas un objeto rojo en la foto normal, sabrás exactamente qué "palabra" (coeficiente) corresponde en el mundo térmico.

B. El Detective con un "Libro de Claves" (VGII - Inferencia Guiada)

Aquí es donde ocurre la magia de la "falta de infrarrojo".

El sistema toma la imagen visible y, usando el diccionario, adivina qué debería ser la imagen térmica.
El toque especial (La IA de Lenguaje): Para no adivinar al azar, usan una Inteligencia Artificial muy avanzada (un modelo de lenguaje grande, como un Chatbot) que actúa como un crítico de cocina.
- Le muestran al crítico: "Mira, aquí hay un tomate (imagen visible) y aquí es donde creo que va el queso (predicción)".
- El crítico lee la descripción y dice: "Oye, si es un tomate caliente, el queso debería ser un poco más brillante aquí".
- El sistema ajusta su predicción basándose en este consejo lógico, no en una generación aleatoria.

C. El Maestro Mezclador (AFRI - Fusión Adaptativa)

Finalmente, tienen la imagen visible real y la imagen térmica "adivinada y corregida".

En lugar de simplemente pegarlas una encima de la otra, el sistema decide píxel por píxel qué información es más importante.
Analogía: Si hay un borde de un edificio, usa la imagen normal (porque se ve nítido). Si hay una persona con ropa oscura en la noche, usa la imagen térmica (porque se ve el calor). Mezcla lo mejor de ambos mundos en el "idioma secreto" y luego lo traduce de nuevo a una foto final.

¿Por qué es mejor que lo anterior?

Sin alucinaciones: Como no "pinta" la imagen desde cero en la pantalla, sino que deduce las instrucciones lógicas, no inventa objetos que no existen.
Interpretable: Sabemos exactamente por qué tomó una decisión (porque siguió las reglas del diccionario y el consejo del crítico), a diferencia de las "cajas negras" que usan otros.
Rápido y eficiente: No necesita computadoras gigantescas para generar imágenes térmicas complejas; solo necesita leer el diccionario y hacer ajustes lógicos.

En resumen

Imagina que eres un detective que solo tiene una foto en blanco y negro de una escena del crimen, pero necesita saber dónde estaba el fuego. En lugar de inventar el fuego, usa un manual de reglas (el diccionario) y un asesor experto (la IA de lenguaje) para deducir dónde debería estar el calor basándose en lo que ve en la foto en blanco y negro. El resultado es una imagen combinada que es tan buena como si hubieras tenido la cámara térmica desde el principio.

¡Y lo mejor es que esto funciona incluso cuando la cámara térmica está rota o no está!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared" (No más faltantes: Fusión de imágenes multimodal guiada por diccionarios bajo infrarrojo faltante), presentado en español.

1. Problema Abordado

La fusión de imágenes infrarrojas (IR) y visibles (VIS) es crucial para la percepción robusta en vigilancia, robótica y sistemas autónomos. Sin embargo, la mayoría de los métodos actuales asumen que ambas modalidades están disponibles tanto durante el entrenamiento como en la inferencia.

En escenarios del mundo real, el sensor infrarrojo puede fallar o no estar presente (escenario de IR faltante). Los enfoques existentes para este problema suelen intentar generar una imagen IR sintética en el espacio de píxeles antes de fusionarla. Estos métodos presentan dos deficiencias críticas:

Falta de control e interpretabilidad: Las generaciones en el espacio de píxeles (usando GANs o modelos de difusión) actúan como "cajas negras", lo que lleva a inconsistencias físicas, pérdida de detalles estructurales o la creación de patrones alucinados.
Inestabilidad: La generación directa de píxeles sin restricciones fuertes a menudo resulta en una finalización térmica inestable.

El objetivo de este trabajo es lograr una fusión de alta calidad utilizando solo la imagen visible como entrada, inferiendo las señales térmicas faltantes de manera interpretable y controlada, sin generar una imagen IR intermedia en el espacio de píxeles.

2. Metodología Propuesta

Los autores proponen un marco unificado basado en diccionarios convolucionales compartidos que opera enteramente en el dominio de los coeficientes (representación dispersa) en lugar del dominio de los píxeles. El pipeline sigue una secuencia de Codificar $\rightarrow$ Transferir $\rightarrow$ Fusionar $\rightarrow$ Reconstruir.

El sistema consta de tres módulos principales:

A. Aprendizaje de Representación Conjunta de Diccionario Compartido (JSRL)

Objetivo: Aprender un espacio de "átomos" (diccionario) compartido que represente tanto las imágenes IR como VIS.
Mecanismo: Utiliza una red de aprendizaje profundo (basada en la descomposición de optimización iterativa) para aprender un diccionario $D$ y los mapas de coeficientes $S_{vis}$ y $S_{ir}$ .
Innovación: En lugar de definir priores manualmente, la red aprende a satisfacer la consistencia de datos y las restricciones de regularización de forma end-to-end, estableciendo correspondencias a nivel de átomos entre las dos modalidades.

B. Inferencia de IR Guiada por VIS (VGII)

Objetivo: Inferir los coeficientes de IR faltantes ( $S_{p\_ir}$ ) a partir de los coeficientes visibles ( $\tilde{S}_{vis}$ ) en el dominio de coeficientes.
Transferencia: Una red de inferencia (RIN) mapea los coeficientes visibles a coeficientes pseudo-IR.
Refinamiento Semántico: Se introduce un Modelo de Lenguaje Grande (LLM) congelado como un "crítico semántico" débil.
- Se reconstruye una imagen pseudo-IR inicial.
- El LLM analiza la imagen visible y la pseudo-IR junto con una descripción de la tarea para extraer características textuales.
- Estas características se utilizan para modular linealmente los coeficientes visibles (ajuste de canal/átomo) antes de una segunda transferencia. Esto actúa como un prior semántico ligero para mejorar la cobertura térmica sin introducir ruido generativo.

C. Fusión Adaptativa mediante Inferencia de Representación (AFRI)

Objetivo: Fusionar los coeficientes visibles originales y los coeficientes de IR inferidos.
Mecanismo: Una red de fusión (RFN) utiliza mecanismos de atención de ventanas y mezcla convolutiva a nivel de átomos.
Gating Adaptativo: Aprende pesos de puerta ( $W_{vis}, W_{p\_ir}$ ) para cada átomo, decidiendo dinámicamente si priorizar la estructura visible o la señal térmica inferida según la saliencia.
Reconstrucción: Los coeficientes fusionados se reconstruyen utilizando el mismo diccionario compartido $D$ , garantizando que el resultado final sea consistente con el espacio de representación aprendido.

3. Contribuciones Clave

Paradigma Guiado por Diccionarios en el Dominio de Coeficientes: Es el primer marco que aprende un diccionario compartido y realiza inferencia y fusión exclusivamente en el espacio de coeficientes. Esto cierra el ciclo fuera del espacio de píxeles, mejorando la interpretabilidad y la robustez.
Finalización Controlada con Prior Semántico Débil: Utiliza un LLM congelado no para generar imágenes, sino para modular linealmente los coeficientes. Esto permite una corrección controlada de la transferencia VIS $\rightarrow$ IR, mejorando la estabilidad y evitando artefactos a nivel de píxel.
Entrenamiento Simple e Inferencia de Bajo Costo: El sistema no requiere imágenes IR reales durante la inferencia (solo la imagen visible y el diccionario pre-entrenado). El entrenamiento evita maquinaria adversaria o de difusión compleja, utilizando pérdidas de reconstrucción y consistencia simples.

4. Resultados Experimentales

Los autores evaluaron su método en los conjuntos de datos FLIR, KAIST y MSRS, comparándolo con 10 métodos state-of-the-art (SOTA) que asumen la disponibilidad de ambas modalidades.

Calidad de Fusión: El método propuesto superó o igualó a los métodos de fusión completa (con ambas imágenes) en métricas cuantitativas clave como Gradiente Promedio (AG), Entropía de Imagen (EN) y Frecuencia Espacial (SF). Visualmente, mostró una mejor fidelidad de detalles, equilibrio de brillo y representación de información térmica.
Tareas de Descenso (Downstream Tasks):
- Detección de Objetos: En el conjunto M3FD, el modelo alcanzó un mAP comparable a los métodos de fusión completa, demostrando que la información térmica inferida es suficiente para localizar objetos.
- Segmentación Semántica: En el conjunto FMB, el rendimiento fue comparable e incluso superior en algunas métricas, con límites de clase más claros.
Eficiencia: El análisis de complejidad muestra que el método tiene significativamente menos parámetros aprendibles y un tiempo de inferencia menor en comparación con los enfoques basados en generación de imágenes (GANs/Difusión) seguidos de fusión.

5. Significado e Impacto

Este trabajo representa un cambio de paradigma en la fusión de imágenes multimodal bajo condiciones de datos incompletos.

Interpretabilidad: Al mover la inferencia al dominio de coeficientes y utilizar un diccionario compartido, el proceso deja de ser una "caja negra" y se vuelve físicamente interpretable.
Robustez Operativa: Permite que sistemas de visión por computadora (como drones o vehículos autónomos) operen de manera efectiva incluso si el sensor térmico falla o no está instalado, manteniendo un alto rendimiento en tareas críticas de percepción.
Eficiencia: Elimina la necesidad de costosos modelos generativos para crear imágenes IR sintéticas, ofreciendo una solución más ligera y estable para la implementación en tiempo real.

En resumen, "Missing No More" demuestra que es posible recuperar y fusionar información térmica faltante con alta fidelidad mediante un enfoque basado en representaciones dispersas y priores semánticos ligeros, superando las limitaciones de los métodos generativos tradicionales.