DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

El artículo presenta DeCLIP, un marco eficiente en parámetros y sin necesidad de retransmisión que mejora el aprendizaje incremental de clases multi-etiqueta basado en CLIP mediante un esquema de prompts desacoplado por clase y una estrategia de temperado de similitud adaptativa para mitigar el olvido catastrófico y reducir las tasas de falsos positivos.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu

Publicado 2026-03-09
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un superinteligente detective de imágenes llamado CLIP. Este detective ha leído millones de libros y visto millones de fotos, por lo que sabe perfectamente qué es un "gato" o un "coche" si le preguntas en una sola foto. Es un genio para identificar una sola cosa a la vez.

Pero, la vida real es más caótica. Una foto no suele tener solo un gato; a veces tiene un gato, un perro, un árbol y una bicicleta, todos juntos. Además, este detective tiene un problema grave: tiene mala memoria. Si le enseñas a reconocer "gatos" hoy, mañana olvidará cómo eran los "perros" que vio ayer. A esto los científicos le llaman "olvido catastrófico".

El problema se agrava cuando intentamos enseñarle a este detective a reconocer muchas cosas a la vez en fotos nuevas, sin poder guardar las fotos viejas en su memoria (porque eso ocuparía mucho espacio). Además, como no puede ver todas las etiquetas de las fotos pasadas, tiende a alucinar: si ve una foto de un perro, podría gritar: "¡Ahí hay un coche!" con un 100% de seguridad, aunque no haya coches. Eso son falsos positivos.

Aquí es donde entra DeCLIP, la solución que proponen los autores de este paper. Vamos a desglosarlo con analogías sencillas:

1. El Problema: La Confusión de la Fiesta

Imagina que el detective (CLIP) llega a una fiesta (la imagen) donde hay mucha gente (varios objetos).

  • El método antiguo: Le dices al detective: "Mira la fiesta y dime quién está aquí". Como todos comparten el mismo espacio, el detective se confunde. Si ve a un perro, piensa que también hay un gato porque en su entrenamiento pasado, los perros y gatos solían estar juntos. Además, si le preguntas sobre un coche que no está, él dice "¡Sí, seguro que está!" porque tiene miedo de equivocarse y prefiere alucinar.
  • El resultado: Mucha confusión y muchas alucinaciones (falsos positivos).

2. La Solución DeCLIP: Los "Guías Personales" (Prompting Desacoplado)

En lugar de dejar que el detective mire la fiesta con los ojos abiertos y confusos, DeCLIP le da un guía personal exclusivo para cada objeto.

  • La analogía de los lentes mágicos: Imagina que tienes un par de lentes mágicos para cada animal.
    • Cuando quieres buscar un perro, te pones los "lentes de perro". Estos lentes hacen que el detective ignore todo lo demás (el gato, el árbol) y se enfoque solo en las partes de la foto que parecen un perro.
    • Cuando quieres buscar un gato, te pones los "lentes de gato". Ahora el perro desaparece de su visión y solo ve al gato.
  • Por qué funciona: Esto se llama desacoplamiento. En lugar de mezclar todo en un solo mensaje, le damos al detective una instrucción específica para cada cosa ("Busca solo perros", "Busca solo gatos"). Como cada objeto tiene su propio "espacio" o "guía", no se mezclan y el detective no se confunde.

3. El Secreto Anti-Olvido: Los "Anclas de Conocimiento"

El detective tiene mala memoria. Si aprende algo nuevo, borra lo viejo.

  • La solución: Cada vez que el detective aprende a reconocer un "perro" con sus lentes especiales, guardamos esos lentes en un cofre de seguridad.
  • Cómo funciona: Cuando llega una nueva tarea (aprender a reconocer "caballos"), el detective no necesita volver a ver las fotos viejas de perros. Solo saca los "lentes de perro" del cofre y los usa junto con los nuevos. Como los lentes de perro nunca se tocan ni se mezclan con los de caballo, el detective nunca olvida cómo era un perro. ¡No necesita guardar fotos en su memoria (replay-free)!

4. El Freno de Emergencia: "Temperatura Adaptativa" (AST)

Recuerda que el detective tiende a alucinar y decir "¡Sí, hay un coche!" con demasiada seguridad cuando no hay coches.

  • El problema: Como el detective no ve todas las etiquetas de las fotos pasadas, cree que si no le dijeron "no hay coche", entonces debe haber uno.
  • La solución (AST): Imagina que el detective tiene un termostato de confianza.
    • Al principio, está muy caliente (muy seguro de sí mismo).
    • A medida que aprende más cosas (más tareas), el sistema baja la temperatura automáticamente. Esto hace que el detective se vuelva más modesto y cauteloso.
    • Si no está absolutamente seguro de que hay un coche, baja su confianza y dice "No estoy seguro" en lugar de gritar "¡Sí!". Esto elimina casi por completo las alucinaciones (falsos positivos) sin necesidad de ajustar manualmente los controles.

Resumen de la Magia

DeCLIP es como darle al detective:

  1. Lentes individuales para cada objeto (para que no se confunda).
  2. Un cofre de seguridad donde guarda sus lentes viejos para nunca olvidar (sin necesidad de guardar fotos).
  3. Un termostato que le enseña a ser más humilde y menos alucinado cuando ve cosas nuevas.

El resultado: El detective aprende cosas nuevas sin olvidar las viejas, y deja de inventar cosas que no están en la foto. Y lo mejor de todo: lo hace de manera muy eficiente, sin necesitar una memoria gigante ni gastar muchos recursos. ¡Es como darle un superpoder de organización a un genio con mala memoria!