Prompt Tuning for CLIP on the Pretrained Manifold

El artículo presenta ManiPT, un marco que mejora el ajuste de prompts en modelos CLIP bajo supervisión limitada mediante restricciones de consistencia cosenual y un sesgo estructural que mantienen las representaciones en la variedad preentrenada, mitigando así el sobreajuste y mejorando la generalización en diversas tareas.

Xi Yang, Yuanrong Xu, Weigang Zhang, Guangming Lu, David Zhang, Jie Wen

Publicado 2026-02-24
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef de renombre mundial (este es el modelo CLIP, una inteligencia artificial muy inteligente que ya sabe mucho sobre imágenes y texto). Este chef ha pasado años aprendiendo en una gran escuela de cocina, por lo que sabe perfectamente cómo reconocer un perro, un gato o un coche, incluso si nunca ha visto esa raza específica antes.

Sin embargo, ahora quieres que este chef aprenda a cocinar un plato muy específico y nuevo (una tarea nueva) pero solo tienes 5 recetas de ejemplo (pocos datos).

El Problema: "El Chef se Desorienta"

Si le pides al chef que aprenda rápido con tan pocos ejemplos, corre un riesgo: se obsesiona con los detalles irrelevantes.

  • La analogía: Imagina que el chef ve 5 fotos de perros. En todas las fotos, el perro está sobre una alfombra roja. Si el chef aprende solo con esos 5 ejemplos, podría pensar: "¡Ah! Un perro es cualquier cosa que esté sobre una alfombra roja".
  • La consecuencia: Cuando le muestres una foto de un perro en el césped, el chef fallará. Se ha alejado de su conocimiento general (que un perro es un animal con cuatro patas) para enfocarse en un "truco" (la alfombra roja) que solo funcionaba en esos 5 ejemplos. En el mundo de la IA, a esto le llamamos "desviación del manifold" (el chef se sale de su camino seguro y confiable).

La Solución: ManiPT (El "Sistema de Navegación")

Los autores de este paper, ManiPT, proponen una forma inteligente de entrenar al chef sin que pierda su cabeza. Imagina que ManiPT es un sistema de navegación GPS que le dice al chef: "Mantente cerca de tu ruta original, pero haz pequeños ajustes para este nuevo plato".

ManiPT usa dos trucos principales:

1. La "Brújula de Consistencia" (Restricciones de Coseno)

Imagina que el chef tiene una brújula magnética que siempre apunta al "Norte Verdero" (el conocimiento original que ya tenía).

  • Cómo funciona: Cada vez que el chef intenta aprender algo nuevo, ManiPT le dice: "Espera, tu nueva idea debe apuntar casi en la misma dirección que tu brújula original".
  • El resultado: Si el chef intenta decir que "un perro es una alfombra roja", la brújula se desvía mucho y ManiPT le corrige: "No, eso no es correcto según tu conocimiento base. Un perro es un animal". Esto evita que el chef se aleje demasiado de la verdad.

2. El "Ajuste Incremental" (Sesgo Estructural)

En lugar de permitir que el chef reescriba todo su libro de recetas desde cero, ManiPT le obliga a escribir pequeñas notas al margen.

  • La analogía: Imagina que el libro de recetas original está escrito en piedra (es fijo y no se puede borrar). El chef no puede borrar la piedra, solo puede pegar pequeños post-it encima con nuevas ideas.
  • Cómo funciona: La nueva predicción es una mezcla de la receta original (la piedra) y el nuevo post-it. Esto asegura que, aunque el chef intente aprender algo nuevo, nunca olvide lo que ya sabía. Si el post-it dice "alfombra roja", la piedra sigue diciendo "animal", y la mezcla final sigue siendo sensata.

¿Por qué es genial esto?

En el pasado, cuando intentábamos adaptar estos modelos con pocos datos, el chef se volvía "demasiado creativo" y aprendía trucos falsos (como la alfombra roja), fallando cuando veía algo nuevo.

Con ManiPT:

  1. No se olvida de lo básico: Se mantiene cerca de su conocimiento original (el "manifold" o terreno seguro).
  2. Aprende lo que importa: Solo ajusta lo necesario para la tarea nueva, ignorando los trucos de los pocos ejemplos.
  3. Funciona en todo: Ya sea que quieras reconocer gatos en fotos de satélite, coches antiguos o flores raras, ManiPT logra que el chef sea preciso sin volverse loco.

En resumen

Piensa en ManiPT como un entrenador muy estricto pero sabio para un atleta de élite.

  • El atleta (el modelo) ya es muy bueno.
  • El entrenador le dice: "No cambies tu técnica fundamental (la base), solo haz micro-ajustes para esta carrera específica".
  • Gracias a esto, el atleta gana la carrera sin lesionarse ni perder su estilo natural.

El papel demuestra que, al mantener al modelo "aterrizado" en su conocimiento original y solo permitirle hacer ajustes pequeños y seguros, podemos enseñarle cosas nuevas con muy pocos ejemplos y sin que cometa errores tontos. ¡Es la diferencia entre un genio que se confunde y un genio que se adapta!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →