Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una historia sobre un guardia de seguridad muy inteligente (un modelo de Inteligencia Artificial) que trabaja en un museo de arte famoso.

Aquí tienes la explicación de la investigación "InterNeg" en un lenguaje sencillo, usando analogías cotidianas:

🎨 El Problema: El Guardia Confundido

Imagina que tienes un guardia de seguridad (el modelo de IA) que conoce perfectamente todas las obras de arte de un museo (las clases "conocidas" o In-Distribution). Su trabajo es decirte si una obra que le muestras es una pieza real del museo o si es algo extraño que alguien trajo de fuera (una clase "desconocida" o Out-of-Distribution).

El problema es que, hasta ahora, los guardias usaban un método un poco torpe:

El método antiguo: Cuando llegaba una obra nueva, el guardia la comparaba solo con otras obras (si se parece a un cuadro, es arte) o solo con descripciones de texto (si la descripción encaja, es arte).
La confusión: Pero este guardia fue entrenado con un libro de instrucciones especial (llamado CLIP) que le enseñó a conectar imágenes con sus descripciones (como emparejar una foto de un gato con la palabra "gato").
El error: Al comparar cosas que no deberían compararse (como comparar una foto con otra foto, en lugar de foto con texto), el guardia se confundía. A veces, una obra extraña se parecía tanto a otra obra "normal" que el guardia pensaba: "¡Ah, esto es arte del museo!", cuando en realidad era una falsificación.

💡 La Solución: InterNeg (El Guardia con Brújula)

Los autores proponen un nuevo sistema llamado InterNeg. La idea central es: "¡Usa la brújula correcta!". En lugar de comparar cosas de la misma categoría, compara siempre una imagen con su descripción (texto), tal como el guardia fue entrenado originalmente.

Lo hacen en dos pasos mágicos:

1. El Paso del Texto: "El Libro de las Cosas Raras" 📚

Antes, el guardia elegía palabras "raras" (textos negativos) para compararlas con las obras. Pero a veces elegía palabras que, aunque sonaban raras, no eran lo suficientemente diferentes de las obras reales.

La mejora: InterNeg usa una regla estricta. Solo elige palabras que sean tan diferentes de las obras reales como sea posible, basándose en la conexión imagen-texto. Es como si el guardia dijera: "No voy a usar la palabra 'perro' para descartar un cuadro de un gato, porque 'perro' es muy parecido a 'gato'. Voy a usar palabras como 'sándwich' o 'nube' que están en un universo totalmente distinto".

2. El Paso Visual: "El Efecto Espejo" 🪞

A veces, el guardia ve una obra que es claramente falsa (una imagen OOD con mucha confianza), pero no tiene una palabra para describirla.

La magia: InterNeg toma esa imagen falsa y, usando un truco de "inversión", la transforma en una palabra nueva. Imagina que el guardia mira una foto de un alienígena y, mágicamente, el sistema inventa una palabra nueva como "alienígena-espacial" para guardarla en su lista de cosas que NO son arte del museo.
El filtro: Como a veces el sistema puede inventar palabras un poco raras o confusas, InterNeg tiene un filtro inteligente que solo guarda las palabras que realmente son muy diferentes de las obras reales.

🏆 ¿Por qué es tan bueno?

Imagina que el museo tiene miles de visitantes.

Antes: El guardia dejaba pasar a muchos impostores (falsificaciones) porque se confundía al comparar cosas.
Ahora (con InterNeg): El guardia es mucho más preciso.
- En pruebas grandes (como el benchmark ImageNet), el guardia ahora detecta casi el doble de impostores que antes.
- En pruebas difíciles (donde los impostores se parecen mucho a las obras reales), la mejora es aún más dramática.

🌟 En Resumen

La investigación dice: "No mezcles las reglas del juego".
Si entrenaste a tu IA para entender el mundo conectando fotos con palabras, no la obligues a decidir si algo es extraño comparando fotos con fotos o palabras con palabras.

InterNeg es como darle al guardia una brújula que siempre apunta a la conexión correcta (foto ↔ palabra), eliminando la confusión y haciendo que el sistema sea mucho más seguro y confiable para el mundo real.

¡Y lo mejor de todo! No necesitan volver a "entrenar" al guardia con miles de horas de clases; solo necesitan darle mejores herramientas (las palabras correctas y el efecto espejo) para que haga su trabajo de forma natural.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: InterNeg para la Detección de Distribución Fuera de Entorno (OOD)

1. El Problema: Inconsistencia en la Distancia en VLMs

La detección de distribución fuera de entorno (OOD) es crucial para identificar muestras de clases desconocidas en escenarios de mundo abierto. Recientemente, los Modelos de Lenguaje y Visión (VLMs), como CLIP, han demostrado ser efectivos para esta tarea debido a sus representaciones multimodales.

Sin embargo, el artículo identifica una inconsistencia fundamental en los métodos actuales (como NegLabel o AdaNeg):

Enfoque actual: La mayoría de los métodos utilizan distancias intra-modales (imagen-imagen o texto-texto) para seleccionar textos negativos o comparar muestras de prueba. Por ejemplo, comparan textos negativos con etiquetas de distribución dentro (ID) en el espacio textual, o imágenes de prueba con "proxies" de imágenes.
La contradicción: Los VLMs tipo CLIP están optimizados mediante aprendizaje contrastivo para minimizar la distancia inter-modal (imagen-texto) entre pares coincidentes y maximizarla entre pares no coincidentes.
Consecuencia: Utilizar distancias intra-modales durante la detección OOD contradice el objetivo de optimización del modelo. Esto puede llevar a que textos negativos con gran distancia textual a las etiquetas ID, tengan una distancia inter-modal (imagen-texto) pequeña con la imagen de prueba, causando falsos negativos (clasificar datos ID como OOD) o reduciendo el rendimiento general.

2. Metodología: InterNeg

Los autores proponen InterNeg, un marco simple pero efectivo que busca restaurar la consistencia de la distancia inter-modal desde dos perspectivas: textual y visual, sin requerir entrenamiento adicional sobre datos ID o externos.

A. Selección de Textos Negativos Guiada por Inter-Modalidad (Perspectiva Textual)
En lugar de seleccionar textos negativos basándose solo en su distancia textual a las etiquetas ID, InterNeg introduce un criterio guiado por la distancia inter-modal:

Proxies de Imagen ID: Se generan representaciones promedio (proxies) de las imágenes de las clases ID utilizando el codificador de imágenes de CLIP.
Distancia Base Inter-Modal: Se calcula la distancia coseno entre los embeddings de texto de las etiquetas ID y sus correspondientes proxies de imagen.
Criterio de Selección: Un texto candidato se considera un "texto negativo guiado por inter-modalidad" solo si su distancia inter-modal a todos los proxies de imagen ID es mayor que la distancia base de la etiqueta ID correspondiente.
Resultado: Esto garantiza que los textos negativos seleccionados sean realmente distantes en el espacio de alineación imagen-texto que el modelo CLIP aprendió, mejorando su capacidad para aproximar etiquetas OOD reales.

B. Inversión de Imágenes OOD de Alta Confianza (Perspectiva Visual)
Para enriquecer aún más el espacio textual negativo durante la inferencia:

Identificación Dinámica: Se identifican imágenes de prueba que el modelo clasifica como OOD con alta confianza (basado en un umbral $\beta$ ).
Inversión de Modalidad: Estas imágenes OOD se invierten al espacio textual utilizando una técnica de optimización de tokens pseudo (similar a la inversión textual). El objetivo es encontrar un embedding de texto que tenga una alta similitud con la imagen OOD, generando así un "embedding de texto negativo extra" ( $e_v^-$ ).
Filtrado Dinámico: Dado que el umbral fijo puede introducir ruido, se aplica un mecanismo de filtrado dinámico guiado por inter-modalidad. Solo se retienen los embeddings de texto extra que cumplen con el mismo criterio de distancia inter-modal estricto utilizado en la selección textual.
Puntuación OOD Mejorada: La puntuación final OOD se calcula utilizando una función de softmax que incluye: etiquetas ID, textos negativos seleccionados y los embeddings de texto negativos extra generados dinámicamente.

3. Contribuciones Clave

Identificación de la Inconsistencia: Son los primeros en señalar y analizar formalmente la discrepancia entre el uso de distancias intra-modales en la detección OOD y la optimización inter-modal de los VLMs, demostrando cómo esto lleva a un rendimiento subóptimo.
Propuesta InterNeg: Un método que no requiere entrenamiento (zero-shot) ni datos adicionales, utilizando consistentemente la distancia inter-modal tanto para la selección de textos como para la generación de embeddings negativos.
Mecanismo de Filtrado Dinámico: Introducción de un filtro basado en inter-modalidad para mitigar el ruido introducido por la inversión de imágenes OOD de alta confianza.

4. Resultados Experimentales

Los autores evaluaron InterNeg en múltiples benchmarks de referencia utilizando CLIP (ViT-B/16 y otras arquitecturas):

Benchmark Four-OOD (ImageNet-1K):
- InterNeg logró un rendimiento State-of-the-Art (SOTA).
- Reducción del FPR95 (Tasa de Falsos Positivos al 95% de Tasa Verdadera) en un 3.47% en comparación con los métodos existentes.
- Mejora del AUROC en un 0.77%.
Benchmark Near-OOD (OpenOOD):
- En el escenario más desafiante (Near-OOD), donde las clases OOD son similares a las ID, InterNeg mostró una mejora sustancial.
- Reducción del FPR95 en un 2.09%.
- Mejora del AUROC en un 5.50%.
Robustez: El método demostró ser robusto ante desequilibrios en los datos (ratios ID:OOD variables), diferentes arquitecturas de CLIP (ResNet, ViT) y diferentes corpus de texto (WordNet, Common-20K).
Costo Computacional: El costo de inferencia es marginalmente superior a los métodos basados en memoria (como AdaNeg), manteniéndose en un rango aceptable para aplicaciones prácticas.

5. Significado e Impacto

Este trabajo es significativo porque corrige un defecto fundamental en la aplicación de VLMs para la detección OOD. Al alinear la métrica de detección con el objetivo de entrenamiento original del modelo (consistencia inter-modal), InterNeg logra un rendimiento superior sin necesidad de reentrenamiento o fine-tuning costoso.

Aplicabilidad: Es altamente relevante para sistemas de IA en el mundo real (conducción autónoma, diagnóstico médico) donde las clases desconocidas son inevitables y el entrenamiento con datos OOD es imposible.
Eficiencia: Demuestra que se puede lograr un rendimiento SOTA utilizando solo una pequeña cantidad de datos ID para calcular proxies (4-16 imágenes por clase) y sin necesidad de datos externos masivos.
Dirección Futura: Establece que la consistencia de la métrica es tan importante como la calidad de los datos en el uso de modelos multimodales preentrenados.

En conclusión, InterNeg representa un avance importante al demostrar que la coherencia entre el diseño del algoritmo de detección y la naturaleza de la optimización del modelo base es la clave para desbloquear el verdadero potencial de los VLMs en entornos abiertos.

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

🎨 El Problema: El Guardia Confundido

💡 La Solución: InterNeg (El Guardia con Brújula)

1. El Paso del Texto: "El Libro de las Cosas Raras" 📚

2. El Paso Visual: "El Efecto Espejo" 🪞

🏆 ¿Por qué es tan bueno?

🌟 En Resumen

Resumen Técnico: InterNeg para la Detección de Distribución Fuera de Entorno (OOD)

1. El Problema: Inconsistencia en la Distancia en VLMs

2. Metodología: InterNeg

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Towards Automatic Stress Analysis using Scaled Boundary Finite Element Method with Quadtree Mesh of High-order Elements

Computing Characteristic Polynomials of p-Curvatures in Average Polynomial Time

Non-degenerate Rigid Alignment in a Patch Framework

Shirakami: A Hybrid Concurrency Control Protocol for Tsurugi Relational Database System

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity