Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el "Change Captioning" (descripción de cambios) es como un detective que tiene dos fotos: una tomada antes de un evento y otra después. Su trabajo es escribir una historia que explique qué cambió entre ambas fotos.

El problema es que la mayoría de los detectives actuales (los modelos de inteligencia artificial existentes) solo miran la foto del "antes" y la del "después" y tratan de adivinar qué pasó en el medio. Es como si vieras una foto de un vaso lleno de agua y otra de un vaso vacío, y tuvieras que adivinar si alguien lo bebió, lo derramó o si se evaporó, sin ver el proceso. A veces se equivocan porque no entienden la historia completa.

Aquí es donde entra ProCap, el nuevo detective propuesto en este paper. Vamos a explicarlo con una analogía sencilla:

1. El Problema: Mirar solo los extremos

Imagina que tienes dos fotos de un niño jugando con un balón:

Foto A: El balón está en sus manos.
Foto B: El balón está en el suelo.

Un modelo antiguo diría: "El balón cambió de manos al suelo". Pero, ¿cómo llegó allí? ¿Lo dejó caer? ¿Lo pateó? ¿Se le resbaló? Si el modelo no ve el movimiento, a veces confunde un cambio de posición con un cambio de color o de tamaño, especialmente si la luz o el ángulo de la cámara cambian.

2. La Solución de ProCap: "Imagina cómo cambió"

En lugar de solo comparar las dos fotos fijas, ProCap decide reconstruir la película que ocurrió entre ellas. Lo hace en dos etapas mágicas:

Etapa 1: El Director de Cine (Modelado Explícito)

ProCap tiene un superpoder: puede inventar (sintetizar) los fotogramas que faltan entre la Foto A y la Foto B.

El Director: Imagina que ProCap es un director de cine que toma la Foto A y la Foto B y le pide a un asistente (un modelo de interpolación) que dibuje los cuadros intermedios. ¡De repente, tiene una secuencia de 100 fotos que muestran el balón cayendo!
El Editor (Muestreo): Pero, ¡espera! 100 fotos son muchas y muchas son iguales (redundantes). ProCap tiene un editor inteligente que revisa esas 100 fotos y dice: "Esta foto es aburrida, esta otra es confusa, pero ¡esta! Aquí el balón está a medio caer, ¡esa es la clave!".
El Entrenamiento: Con solo esas fotos clave (las más importantes), ProCap entrena a su cerebro para entender la dinámica del cambio. Aprende no solo qué se movió, sino cómo se movió. Es como si el detective leyera el guion completo de la película en lugar de solo los títulos de crédito.

Etapa 2: El Guionista Inteligente (Captioning Implícito)

Aquí viene la parte más genial. Cuando ProCap tiene que describir un nuevo par de fotos en el futuro, no necesita volver a dibujar la película completa (lo cual sería lento y costoso).

Las Preguntas Mágicas: ProCap usa unas "preguntas aprendibles" (llamadas queries). Imagina que son como post-its mágicos que coloca entre la foto del "antes" y la del "después".
La Adivinanza: En lugar de ver las fotos intermedias, el cerebro de ProCap (entrenado en la Etapa 1) mira esos post-its y dice: "¡Ah! Sé exactamente cómo se mueve el balón en este tipo de situaciones. Sé que si el balón está aquí y luego allá, tuvo que caer así".
El Resultado: Con esa intuición, escribe la descripción perfecta: "El niño soltó el balón y este rodó hasta el suelo".

¿Por qué es esto tan importante? (La Analogía Final)

Piensa en aprender a conducir:

Los modelos antiguos te enseñan mirando solo el coche estacionado y luego el coche en movimiento. Intentan adivinar cómo aceleraste.
ProCap te enseña viendo la película completa de cómo aceleraste, frenaste y giraste. Luego, cuando te sientas en un coche nuevo, no necesita ver la película de nuevo; su cerebro ya sabe cómo funciona el movimiento y puede explicártelo perfectamente.

En resumen, ProCap hace tres cosas increíbles:

Crea la película: Inventar los pasos intermedios para entender la historia completa.
Aprende los momentos clave: Selecciona solo las escenas más importantes para no perder tiempo.
Adivina sin ver: Usa su experiencia previa para describir cambios nuevos sin tener que generar imágenes costosas, lo que lo hace muy rápido y eficiente.

Gracias a esto, ProCap es mucho mejor detectando cambios sutiles (como un objeto que se mueve detrás de otro) y escribe descripciones más naturales y precisas, entendiendo no solo el "qué", sino el "cómo" y el "por qué" de los cambios.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "IMAGINE HOW TO CHANGE: EXPLICIT PROCEDURE MODELING FOR CHANGE CAPTIONING" (Imagina cómo cambiar: Modelado explícito de procedimientos para la descripción de cambios), presentado en ICLR 2026.

1. El Problema

La descripción de cambios (Change Captioning) tiene como objetivo generar descripciones textuales que resalten las diferencias entre dos imágenes visualmente similares (antes y después). Aunque es una tarea crucial para aplicaciones como la vigilancia urbana, el diagnóstico médico y el control de calidad, los métodos existentes presentan limitaciones fundamentales:

Enfoque Estático: La mayoría de los métodos actuales tratan el problema como una comparación estática entre pares de imágenes. Ignoran la dinámica temporal y el proceso de transición que conecta el estado "antes" con el estado "después".
Pérdida de Contexto Dinámico: Al no modelar el "cómo" ocurre el cambio, los modelos tienen dificultades para distinguir entre cambios semánticos reales y variaciones irrelevantes causadas por cambios de punto de vista, iluminación o desorden de fondo.
Falta de Coherencia Temporal: Transformar diferencias visuales finas en descripciones lingüísticas coherentes es difícil sin entender la secuencia de eventos subyacente.

2. Metodología: ProCap

Los autores proponen ProCap, un marco de trabajo innovador de dos etapas que reformula la descripción de cambios: de una comparación estática a un modelado dinámico de procedimientos. La idea central es explícitamente modelar la secuencia temporal de transición para inferir cómo ocurre el cambio.

Etapa 1: Modelado Explícito de Procedimientos (Explicit Procedure Modeling)

En esta fase de entrenamiento, el modelo aprende a capturar la dinámica latente del cambio utilizando una secuencia de fotogramas intermedios.

Generación de Procedimiento (Procedure Generation):
- Se utiliza un modelo de interpolación de fotogramas (FI) preentrenado para sintetizar una secuencia densa de fotogramas intermedios entre la imagen inicial ( $I_{bef}$ ) y la final ( $I_{aft}$ ). Esto transforma la transformación implícita en una secuencia temporal explícita y observable.
Muestreo de Fotogramas Basado en Confianza (Confidence-Based Frame Sampling):
- Dado que la secuencia generada es densa y redundante, se introduce un módulo de muestreo.
- Se asigna una puntuación de confianza a cada fotograma basándose en su importancia semántica y temporal (los fotogramas más informativos son aquellos semánticamente equidistantes de los estados inicial y final).
- Se selecciona un subconjunto disperso de fotogramas clave ( $k$ ) para mitigar la redundancia y reducir la carga computacional.
Modelado del Procedimiento (Procedure Modeling):
- Un codificador de procedimientos (basado en Transformer) aprende una representación latente compacta de estos fotogramas clave.
- Tarea de Entrenamiento: Se utiliza una tarea de reconstrucción enmascarada condicionada por la descripción (caption-conditioned masked reconstruction).
- Se aplica una estrategia de enmascaramiento multi-granularidad (enmascaramiento de fotogramas completos, parches aleatorios, bloques dentro y fuera) para obligar al modelo a aprender la dinámica espacio-temporal bajo guía textual, mejorando la generalización y evitando el sobreajuste a señales visuales superficiales.
- La función de pérdida combina: reconstrucción de secuencia enmascarada, alineación cruzada (visión-texto) y consistencia temporal.

Etapa 2: Descripción de Procedimientos Implícitos (Implicit Procedure Captioning)

En esta fase, el modelo se adapta para la inferencia sin necesidad de generar fotogramas intermedios costosos.

Consultas de Procedimiento Aprendibles (Learnable Procedure Queries): En lugar de inyectar fotogramas intermedios sintetizados (lo cual es ruidoso y costoso), se insertan un conjunto de consultas aprendibles entre las características de las imágenes "antes" y "después".
Inferencia Implícita: El codificador de procedimientos (congelado o ajustado) utiliza estas consultas como "ranuras" para inferir implícitamente la representación del procedimiento de cambio latente.
Generación de Texto: Un decodificador de texto transforma esta representación latente en la descripción final.
Entrenamiento: Todo el sistema se optimiza de extremo a extremo (end-to-end) utilizando una pérdida de modelado de lenguaje autoregresivo.

3. Contribuciones Clave

Nuevo Paradigma: ProCap es el primer intento de reformular la descripción de cambios desde la comparación estática hacia el modelado dinámico de procedimientos, abordando la limitación de ignorar la riqueza de la dinámica temporal.
Modelado Explícito: Propone un mecanismo para sintetizar y modelar explícitamente la secuencia de transición mediante fotogramas clave seleccionados por confianza, utilizando una tarea de reconstrucción enmascarada para capturar la dinámica del cambio.
Descripción Implícita Eficiente: Introduce consultas aprendibles para representar el proceso de cambio durante la inferencia. Esto elimina la necesidad de síntesis de fotogramas costosa y ruidosa en tiempo de prueba, manteniendo la coherencia temporal y la eficiencia computacional.

4. Resultados Experimentales

El modelo fue evaluado en tres conjuntos de datos de referencia: CLEVR-Change (escenas sintéticas), Spot-the-Diff (escenas reales complejas) e Image-Editing-Request (escenarios abiertos).

Rendimiento General: ProCap supera a los métodos basados en LLM (como Qwen-VL y LLaVA-1.5) y a los métodos no basados en LLM (como FINER, MCT-CCDiff) en múltiples métricas, especialmente en CIDEr y BLEU-4.
- En CLEVR-Change, obtuvo un CIDEr de 135.6, superando a los métodos anteriores.
- En Spot-the-Diff, logró un CIDEr de 42.7, demostrando robustez en escenas con múltiples cambios sutiles y ruido visual.
Robustez: El modelo muestra una mayor capacidad para distinguir cambios semánticos reales de distractores como cambios de punto de vista o iluminación, gracias al modelado del camino de transición completo.
Eficiencia: A pesar de la complejidad del modelado, ProCap es significativamente más rápido en la inferencia que los métodos que requieren síntesis de fotogramas o LLMs masivos. En pruebas, fue 22 veces más rápido que el estado del arte MCT-CCDiff en el conjunto Spot-the-Diff.
Estudios de Ablación:
- La combinación de modelado explícito (entrenamiento) y consultas implícitas (inferencia) es crucial; usar solo uno de los componentes reduce drásticamente el rendimiento.
- La longitud óptima de las consultas aprendibles ( $k$ ) es 2, equilibrando detalle procedural y eficiencia.
- La estrategia de enmascaramiento multi-granularidad es esencial para aprender tanto la semántica global como los detalles locales.

5. Significado e Impacto

El trabajo de ProCap representa un avance significativo en la visión por computadora y el procesamiento del lenguaje natural:

Cambio de Paradigma: Demuestra que entender el "cómo" (el proceso) es tan importante como el "qué" (el resultado) para la comprensión visual profunda.
Generalización: Al aprender la dinámica de transformación en lugar de memorizar pares de imágenes estáticas, el modelo generaliza mejor a escenarios abiertos y vocabulario no visto.
Eficiencia vs. Calidad: Logra un equilibrio superior entre la calidad de la descripción y la eficiencia computacional, ofreciendo una alternativa viable a los modelos masivos basados en LLM para tareas de comparación de imágenes.
Aplicabilidad: Su enfoque es particularmente útil en dominios donde la coherencia temporal es crítica, como la vigilancia, la medicina y la inspección industrial, donde los cambios sutiles pueden ser críticos.

En resumen, ProCap establece un nuevo estándar al integrar el modelado de procesos dinámicos en la tarea de descripción de cambios, superando las limitaciones de los enfoques puramente estáticos y ofreciendo una solución robusta, eficiente y coherente.