Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un detective de imágenes. Tu trabajo es encontrar copias de una foto que alguien ha robado o modificado. Pero no es una copia exacta; el ladrón ha recortado la foto, le ha cambiado los colores, la ha girado o incluso ha pegado una parte de otra imagen encima.

El problema es que los métodos antiguos para encontrar estas copias eran como buscar una aguja en un pajar mirando solo el "olor" general de la pila de heno (la imagen completa). Si la aguja (la parte robada) estaba un poco escondida o cambiada, el detective se perdía.

Este paper presenta una nueva solución llamada PixTrace y CopyNCE. Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: El Detective Ciego

Antes, los sistemas de inteligencia artificial intentaban adivinar qué partes de dos fotos coincidían mirando parches generales. Era como intentar emparejar dos rompecabezas mirando solo el color de las piezas, sin saber dónde encajan exactamente.

El error: A veces decían "¡Estas dos piezas son iguales!" cuando en realidad no lo eran (falsos positivos), o ignoraban piezas que sí coincidían (falsos negativos). Esto confundía al sistema y lo hacía menos preciso.

2. La Solución: PixTrace (El Mapa del Tesoro)

Los autores se dieron cuenta de algo genial: las imágenes modificadas siempre dejan un rastro. Si tomas una foto, la giras y la recortas, cada píxel de la nueva foto proviene de una posición exacta en la foto original.

La analogía: Imagina que tienes una hoja de papel con un dibujo. Si la giras y la cortas, puedes dibujar una hoja de ruta (un mapa) que te diga: "El píxel que ahora está en la esquina superior derecha de la foto nueva, vino originalmente del centro de la foto vieja".
PixTrace es ese mapa. Es un sistema que rastrea píxel por píxel, creando una tabla de coordenadas que conecta la foto original con la copia modificada. Ya no hay adivinanzas; hay un registro exacto de dónde vino cada pedazo de la imagen.

3. La Magia: CopyNCE (El Entrenador Estricto)

Una vez que tienen este mapa perfecto (PixTrace), necesitan enseñarle al cerebro de la computadora (el modelo de IA) a usarlo. Aquí entra CopyNCE.

La analogía: Imagina que estás entrenando a un perro para que busque un juguete.
- Método antiguo: Le decías "¡Busca el juguete!" y el perro olfateaba al azar. A veces acertaba, a veces no, y a veces se confundía con piedras que parecían juguetes.
- Método CopyNCE: Gracias a PixTrace, tú le das al perro una guía exacta. Le dices: "Mira, el 40% de este parche de la foto nueva viene de aquí, y el 60% de allá".
- CopyNCE es el entrenador que usa esa guía para corregir al perro. Si el perro intenta emparejar dos cosas que no coinciden, el entrenador le dice: "¡No! Mira el mapa, esa parte no tiene nada que ver". Esto elimina el "ruido" y las confusiones, haciendo que el sistema aprenda mucho más rápido y con mayor precisión.

4. El Resultado: ¿Por qué es tan bueno?

Gracias a esta combinación de "Mapa del Tesoro" (PixTrace) y "Entrenador Estricto" (CopyNCE):

Precisión de Cirujano: El sistema puede detectar copias incluso si han sido muy manipuladas (giradas, estiradas, con colores cambiados), porque sabe exactamente qué píxel corresponde a cuál.
Menos Confusión: Al eliminar las suposiciones erróneas, el sistema no se distrae con partes de la imagen que parecen similares pero no lo son.
Récords: En las pruebas oficiales (un concurso llamado DISC21), este método rompió todos los récords anteriores, superando a los mejores sistemas existentes.

En Resumen

Imagina que antes, encontrar una foto robada era como intentar reconocer a una persona en una multitud solo por su silueta borrosa. Ahora, con PixTrace y CopyNCE, es como si tuvieras un escáner que te dice exactamente qué parte de la ropa de esa persona vino de qué tienda y cómo se movió.

Es una forma de darle a la inteligencia artificial "ojos de águila" y una "memoria perfecta" para rastrear cada pequeño detalle de una imagen, haciendo que sea casi imposible que un ladrón de imágenes se escape.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection" (Rastreo de píxeles copiados y regularización de la afinidad de parches en la detección de copias), presentado por investigadores de Ant Group.

1. Problema y Motivación

La Detección de Copias de Imágenes (ICD) tiene como objetivo identificar contenido manipulado entre pares de imágenes. Aunque el Aprendizaje No Supervisado (SSL) ha avanzado en este campo, los métodos actuales basados en aprendizaje contrastivo a nivel de vista (view-level) tienen dificultades con ediciones sofisticadas.

El problema central identificado es la insuficiencia en el aprendizaje de correspondencias a nivel fino (fine-grained). Los enfoques existentes suelen tratar las imágenes como un todo o utilizan estrategias de "vecino más cercano" (Nearest Neighbor - NN) para establecer correspondencias entre parches. Sin embargo, estas estrategias heurísticas sufren de:

Falsos positivos: Emparejar regiones semánticamente similares pero no geométricamente correspondientes.
Emparejamientos parciales: No capturar todas las regiones positivas.
Ruido en la supervisión: Estos errores generan señales de gradiente conflictivas que perjudican la convergencia del modelo y el rendimiento final.

La premisa clave del trabajo es que el contenido manipulado posee una "trazabilidad geométrica" inherente: los píxeles de una imagen editada pueden rastrearse de vuelta a la imagen original a través de las funciones de transformación deterministas utilizadas en la edición (corte, rotación, cambio de color, etc.).

2. Metodología Propuesta

Los autores proponen un marco que combina el rastreo de coordenadas de píxeles con una función de pérdida contrastiva regularizada.

A. PixTrace (Módulo de Rastreo de Píxeles)

PixTrace es un pipeline que mantiene un mapa explícito de coordenadas espaciales a través de una secuencia de transformaciones de edición.

Mecanismo: Utiliza una "tabla de coordenadas" (estructura de datos tipo diccionario) que se actualiza secuencialmente. Para cada operación de edición aplicada a una imagen original ( $I_o$ ) para generar una copia ( $I_a$ ), se aplica una función de transformación $f$ a las coordenadas de la tabla.
Capacidad: Esto permite rastrear exactamente qué píxeles de la imagen editada provienen de la imagen original. Además, al usar la imagen original como puente, se pueden rastrear las correspondencias entre dos imágenes editadas diferentes ( $I_a$ e $I_b$ ) que provienen de la misma fuente.
Ventaja: Elimina la ambigüedad de los métodos heurísticos (como FeatNN o LocNN) al proporcionar correspondencias de píxeles a píxeles exactas y verificadas geométricamente.

B. CopyNCE (Pérdida Contrastiva Guiada Geométricamente)

CopyNCE es una función de pérdida diseñada para regular la afinidad entre parches utilizando la supervisión precisa obtenida de PixTrace.

Concepto: Extiende la pérdida InfoNCE (usada en CPC) al nivel de parches. En lugar de tratar todos los parches positivos como iguales, CopyNCE utiliza una distribución objetivo previa basada en la proporción de superposición de áreas entre parches.
Funcionamiento:
1. Calcula la probabilidad de que un parche en la imagen de consulta ( $R^q_i$ ) corresponda a un parche en la imagen de referencia ( $R^r_j$ ) basándose en el número de píxeles rastreados por PixTrace que se superponen.
2. Introduce un parámetro de afinación de confianza ( $\gamma$ ) para modular la certeza de esta distribución previa.
3. La pérdida minimiza la divergencia KL entre la distribución de probabilidad predicha por el modelo y la distribución previa basada en la superposición de píxeles.
Objetivo: Esto obliga al modelo a aprender que la afinidad entre parches debe ser proporcional a la cantidad de contenido compartido (rastreable), suprimiendo el ruido de las áreas no correspondientes.

C. Arquitectura del Modelo

El método se aplica tanto a Descriptores (que extraen características para búsqueda por similitud) como a Emparejadores (Matchers, que clasifican pares de imágenes). Ambos se basan en arquitecturas Vision Transformer (ViT).

Descriptor: Usa ViT como codificador; CopyNCE regulariza los tokens de parche.
Emparejador: Usa ViT con bloques de atención para codificar y fusionar pares de imágenes; CopyNCE supervisa los tokens fusionados.

3. Contribuciones Clave

PixTrace: Un pipeline integral de mapeo de coordenadas que mantiene la trazabilidad de los píxeles editados, eliminando la ambigüedad en la supervisión.
CopyNCE: Una nueva función de pérdida que traduce la trazabilidad a nivel de píxel en una guía para regular la afinidad a nivel de parche, mejorando la detección y localización de copias.
Rendimiento y Explicabilidad: Logran resultados de vanguardia (SOTA) y demuestran una mayor interpretabilidad, ya que los mapas de calor de afinidad muestran claramente las regiones copiadas, a diferencia de los métodos baselines que producen resultados caóticos.

4. Resultados Experimentales

Los experimentos se realizaron principalmente en el conjunto de datos DISC21 (Image Similarity Challenge 2021) y se validaron en NDEC.

Rendimiento en el conjunto de datos DISC21:
- Emparejador (Matcher): Logró un 88.7% de µAP y 83.9% de RP90 (Recall a Precisión 90%), superando a los métodos existentes (como D2LV) incluso sin ensamblar múltiples modelos complejos.
- Descriptor: Alcanzó un 72.6% de µAP y 68.4% de RP90, superando a enfoques SOTA como SSCD y Lyakaap.
Análisis de Ablación:
- La eliminación de CopyNCE (usando solo pérdida de coseno o InfoNCE estándar) causó un colapso del rendimiento, especialmente en emparejadores, debido a la falta de supervisión de correspondencias precisas.
- La comparación con métodos heurísticos (FeatNN, LocNN) mostró que PixTrace es superior, ya que estos últimos sufren de falsos emparejamientos y ruido.
Generalización: El modelo demostró buena capacidad de generalización en el desafío de la "Fase 2" de DISC21 (ediciones más agresivas) y en el conjunto de datos NDEC, superando significativamente a los competidores.

5. Significado e Impacto

Este trabajo es significativo porque cierra la brecha entre la trazabilidad geométrica exacta (disponible en la generación de datos sintéticos) y el aprendizaje de representaciones robustas en SSL.

Superación del ruido: Al reemplazar las correspondencias heurísticas ruidosas con trazas de píxeles verificadas, el modelo aprende representaciones más limpias y robustas frente a ediciones complejas (matizado, transformaciones afines, etc.).
Interpretabilidad: A diferencia de las "cajas negras" en el aprendizaje profundo, CopyNCE permite visualizar exactamente qué regiones de una imagen están siendo emparejadas, lo cual es crucial para aplicaciones forenses y de derechos de autor.
Eficiencia: Aunque el rastreo de píxeles añade costo computacional durante el entrenamiento, el modelo resultante es eficiente y no requiere pipelines complejos de ensamblaje para alcanzar el estado del arte, ofreciendo una solución más escalable y comprensible para la detección de copias.

En resumen, el artículo demuestra que explotar la estructura geométrica inherente de las transformaciones de edición es la clave para superar las limitaciones de los métodos de aprendizaje contrastivo actuales en la detección de copias de imágenes.