From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective de objetos muy inteligente, pero que solo ha estudiado un libro de texto muy específico. Si le muestras un perro, un gato o un coche, lo identifica perfectamente. Pero si le muestras un camello en la ciudad, el detective se queda confundido: o bien lo llama "caballo" (porque se parece) y se equivoca, o bien ignora al camello por completo porque no está en su libro.

Este es el problema de la mayoría de las inteligencias artificiales actuales: asumen que el mundo solo contiene lo que ya conocen. En situaciones reales, como conducir un coche autónomo, esto es peligroso. ¿Qué pasa si aparece un animal extraño o un objeto nuevo en la carretera?

Los autores de este paper (Zizhao Li y su equipo) han creado una solución para enseñar a estos detectives a ver el mundo real, no solo lo que está en su libro de texto. Lo llaman "De Vocabulario Abierto a Mundo Abierto".

Aquí te explico cómo funciona su invento con una analogía sencilla:

1. El Detective y su "Libro de Palabras" (OVD)

Antes, existían detectores que podían entender palabras nuevas (como "avestruz" o "furgoneta") sin haberlas visto antes, gracias a que estaban conectados a una base de datos de lenguaje gigante (como CLIP). Esto es como tener un detective que sabe leer cualquier idioma.

El problema: Aunque sabe leer, si ve algo que no se parece a nada que haya leído, sigue fallando. Si ve un camello, lo confunde con un caballo (porque son parecidos) o lo ignora.

2. La Solución: Dos Superpoderes Nuevos

El equipo propone dos trucos mágicos para que el detective no solo lea, sino que observe y aprenda en tiempo real.

Truco A: El "Detective de lo Desconocido" (OWEL)

Imagina que el detective tiene un libro de clases conocidas. Cuando aparece algo nuevo, en lugar de intentar adivinar qué es, el sistema crea un "etiquetador fantasma".

La analogía: Piensa en un mapa de estrellas. Las estrellas que conocemos (los objetos conocidos) forman constelaciones. El sistema dibuja un "espacio vacío" en el mapa que representa "todo lo que NO es una de esas constelaciones".
Cómo funciona: Si el detective ve algo que no encaja en ninguna constelación conocida, el "etiquetador fantasma" levanta la mano y dice: "¡Oye! Esto no es un coche ni un perro, es algo desconocido". Así, el sistema no se equivoca llamándolo "caballo"; simplemente dice: "Es algo nuevo, lo aprenderé más tarde".

Truco B: El "Inspector de Múltiples Lentes" (MSCAL)

A veces, el detective se confunde porque ve un objeto de lejos (parece un punto) y de cerca (parece otra cosa).

La analogía: Imagina que el detective tiene unas gafas con muchas lentes diferentes (zoom, gran angular, macro). El sistema les pide a todas las lentes que se pongan de acuerdo.
Cómo funciona: Si la lente de "cerca" dice "es un perro" y la lente de "lejos" dice "es una roca", el sistema se da cuenta de que hay confusión. Este método obliga a todas las "lentes" a estar de acuerdo en qué es un objeto conocido. Si no están de acuerdo, el sistema marca el objeto como "sospechoso" (desconocido) en lugar de adivinar.

3. El Resultado: Aprender sin Olvidar

Lo más genial de este sistema es que no necesita reescribir todo el libro de texto cada vez que aprende algo nuevo.

La analogía: En lugar de reescribir toda la enciclopedia para añadir una nueva página sobre "camellos", el detective simplemente añade una nota adhesiva al margen con la nueva información.
Beneficio: Esto hace que el aprendizaje sea rápido, ahorra memoria y, lo más importante, no olvida lo que ya sabía (un problema común en IA llamado "olvido catastrófico").

¿Por qué es importante para el mundo real?

Los autores probaron esto en coches autónomos (usando datos de la ciudad de Singapur, nuScenes).

Sin este sistema: Un coche autónomo podría confundir a un peatón con una señal de tráfico o ignorar a un animal salvaje en la carretera, causando accidentes.
Con este sistema: El coche puede decir: "Veo un objeto que no conozco. No es un coche, ni un peatón. Voy a frenar y avisar al conductor". Además, puede aprender a reconocer ese animal nuevo para la próxima vez, sin dejar de reconocer a los coches.

En resumen

Este paper es como darle a un robot un instinto de supervivencia. Ya no solo sigue reglas estrictas de un manual; ahora tiene la capacidad de decir: "Esto no encaja en mis reglas, es algo nuevo, y voy a tratarlo con cuidado hasta que aprenda qué es". Es un paso gigante para que la inteligencia artificial sea segura y útil en nuestro mundo caótico y lleno de sorpresas.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects" (De Vocabulario Abierto a Mundo Abierto: Enseñar a los Modelos de Visión-Lenguaje a Detectar Objetos Novedosos), presentado por Li, Xiang, West y Khoshelham.

1. Problema Definido

El artículo aborda las limitaciones actuales de la detección de objetos en entornos del mundo real, específicamente la transición de la Detección de Objetos de Vocabulario Abierto (OVD) a la Detección de Objetos en Mundo Abierto (OWOD).

Limitaciones de la OVD: Los modelos OVD actuales pueden detectar objetos basándose en descripciones de texto ilimitadas. Sin embargo, dependen de un "oráculo" que proporciona prompts precisos. En escenarios críticos como la conducción autónoma, esto es insuficiente porque:
- Objetos NOOD (Near-Out-of-Distribution): Objetos con características similares a clases conocidas tienden a ser mal clasificados (confundidos con clases conocidas).
- Objetos FOOD (Far-Out-of-Distribution): Objetos muy diferentes a las clases conocidas son ignorados por completo.
Limitaciones de la OWOD tradicional: Los métodos existentes para OWOD a menudo requieren estrategias de "replay" (reintroducir datos de tareas anteriores), lo que consume recursos de almacenamiento y cómputo, y sufren de olvido catastrófico al aprender nuevas clases. Además, tienen un rendimiento bajo en la recuperación (recall) de objetos desconocidos.

El objetivo es crear un marco unificado que permita a los modelos OVD operar en entornos de mundo abierto, identificando y aprendiendo incrementalmente objetos desconocidos sin perder la capacidad de detección de vocabulario abierto ni requerir el almacenamiento de datos anteriores.

2. Metodología Propuesta

Los autores proponen un marco que integra el aprendizaje de vocabulario abierto con la detección en mundo abierto, manteniendo los pesos del modelo base (YOLO-World) congelados y optimizando solo los embebidos de texto y módulos adicionales. La arquitectura se basa en tres componentes principales:

A. Aprendizaje de Embebidos de Mundo Abierto (OWEL - Open World Embedding Learning)

Función: Permite el descubrimiento y aprendizaje incremental de nuevas clases sin ajustar todo el modelo (evitando el olvido catastrófico).
Mecanismo: En lugar de afinar (fine-tune) el modelo completo, OWEL optimiza los embebidos de texto de las clases conocidas.
Embebido de Desconocido Pseudo (Pseudo Unknown Embedding): Para detectar objetos FOOD (lejanos de la distribución), se introduce un concepto novedoso. Se construye un embebido de texto $w_U$ $w_{U}$ que representa la "objetualidad" genérica menos la media de las clases conocidas.
- Fórmula: $w_U = w_0 - \alpha \frac{\bar{w}}{||\bar{w}||}$ , donde $w_0$ es el embebido de "objeto" genérico y $\bar{w}$ es la media de los embebidos de clases conocidas.
- Este embebido permite al modelo identificar regiones que son objetos pero no coinciden con ninguna clase conocida específica.

B. Aprendizaje de Anclaje Contrastivo Multi-Escala (MSCAL - Multi-Scale Contrastive Anchor Learning)

Función: Identificar y rechazar objetos NOOD (cercanos a la distribución) que podrían ser mal clasificados.
Mecanismo: Trata la identificación de objetos desconocidos como un problema de clasificación de una sola clase (one-class classification).
- Para cada clase conocida $i$ , se entrena un proyector no lineal que mapea las características de la imagen a un espacio de representación específico para esa clase.
- Se utiliza un ancla de clase ( $\mu_i$ ). Las muestras positivas (de la clase $i$ ) en diferentes escalas maximizan su similitud con el ancla, mientras que las muestras de otras clases y el fondo actúan como negativos.
- Puntuación OOD: Durante la inferencia, si la puntuación de similitud con el ancla es baja (o la distancia es alta), la región se marca como "fuera de distribución" (OOD) y se rechaza como una clase conocida, permitiendo su clasificación como desconocida.

C. Aprendizaje Incremental

El método no requiere replay de ejemplos. Al introducir nuevas clases, se congelan los embebidos y módulos MSCAL de las clases anteriores y se entrenan solo los nuevos. Esto garantiza la eficiencia y evita el olvido catastrófico.

3. Contribuciones Clave

Marco Unificado: Un sistema que unifica el aprendizaje de vocabulario abierto (OVD) y el aprendizaje en mundo abierto (OWOD), permitiendo a los modelos OVD operar en escenarios de mundo abierto sin sacrificar su capacidad zero-shot.
OWEL: Un método para descubrir y aprender clases nuevas optimizando solo los embebidos de texto, eliminando la necesidad de fine-tuning completo o almacenamiento de datos previos.
MSCAL: Una técnica que reduce la confusión entre conocidos y desconocidos agrupando los embebidos de clases conocidas alrededor de anclas específicas en múltiples escalas, mejorando la detección de objetos NOOD.
Nuevo Benchmark (nu-OWODB): Se propone un nuevo conjunto de datos basado en nuScenes para evaluar OWOD en conducción autónoma, simulando desafíos reales como desequilibrio de clases, oclusiones y condiciones climáticas variables.

4. Resultados Cuantitativos y Cualitativos

El método fue evaluado en benchmarks estándar (M-OWODB, S-OWODB) y en el nuevo benchmark de conducción (nu-OWODB), así como en la evaluación de vocabulario abierto (LVIS).

Rendimiento en OWOD (M-OWODB y S-OWODB):
- Superó significativamente a los métodos State-of-the-Art (SOTA) anteriores (como ORE, OW-DETR, PROB, EO-OWOD) en Recall de Clases Desconocidas (U-Recall). Por ejemplo, en M-OWODB Task 1, alcanzó un U-Recall de 73.5% frente al 24.6% del mejor método previo (EO-OWOD).
- Mantuvo un alto mAP (Precisión Media Promedio) para clases conocidas.
- Redujo drásticamente la confusión entre clases (medido por Wilderness Impact - WI y Absolute Open-Set Error - A-OSE).
Rendimiento en Conducción (nu-OWODB):
- Logró un U-Recall de 45.5% en la primera tarea, superando a los métodos SOTA por un margen de hasta el 40%, a pesar de la gran brecha de dominio entre los datos de pre-entrenamiento de visión-lenguaje y las escenas de conducción reales.
- Los métodos basados en replay (con fine-tuning) mostraron mejor WI/A-OSE en algunos casos, pero a costa de un rendimiento general inferior en la detección de desconocidos y mayor consumo de recursos.
Capacidad Zero-Shot (OVD):
- Al mantener los pesos del modelo YOLO-World congelados y optimizar solo los embebidos, el modelo preservó su capacidad de detección de vocabulario abierto. En el benchmark LVIS minival, obtuvo resultados comparables a los métodos OVD más avanzados (mAP de 35.7).
Resultados Cualitativos:
- Las visualizaciones muestran que el método propuesto genera cajas delimitadoras más significativas para objetos desconocidos y evita la sobre-detección de objetos conocidos como desconocidos (falsos positivos comunes en otros métodos).

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Viabilidad para Aplicaciones Críticas: Proporciona una solución práctica para la percepción en conducción autónoma, donde los modelos no pueden asumir un conjunto cerrado de objetos. La capacidad de detectar y aprender nuevos objetos (como un vehículo de emergencia no visto antes o un obstáculo inusual) sin reentrenar todo el sistema es crucial para la seguridad.
Eficiencia Computacional: Al eliminar la necesidad de replay de datos y el fine-tuning completo, el método reduce drásticamente los requisitos de almacenamiento y potencia de cómputo, facilitando la implementación en sistemas embebidos o en la nube con recursos limitados.
Unificación de Paradigmas: Demuestra que no es necesario elegir entre la flexibilidad del vocabulario abierto y la robustez del mundo abierto; ambos pueden coexistir en un solo marco eficiente.
Establecimiento de Nuevos Estándares: La introducción del benchmark nu-OWODB llena un vacío importante en la evaluación de OWOD en escenarios de conducción real, ofreciendo un estándar más riguroso que los benchmarks sintéticos o de laboratorio actuales.

En resumen, el artículo presenta un avance fundamental hacia la creación de sistemas de visión por computadora que pueden operar de manera segura y adaptativa en entornos dinámicos y no controlados, superando las limitaciones de los enfoques tradicionales de detección de objetos.