SOTA: Self-adaptive Optimal Transport for Zero-Shot Classification with Multiple Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes que organizar una gran fiesta y necesitas asignar a cada invitado (una imagen) a su mesa correcta (una categoría), pero nunca has visto a estos invitados antes. No tienes una lista de nombres, solo tienes descripciones generales.

Para resolver esto, decides contratar a varios "expertos" o modelos de Inteligencia Artificial (llamados Foundation Models) para que te ayuden a clasificar a los invitados.

Aquí es donde entra el problema y la solución brillante de este paper, llamado SOTA.

El Problema: Los Expertos tienen "ceguera"

Imagina que tienes dos tipos de expertos:

Los "Lectores de Libros" (Modelos Visuales-Lingüísticos o VLMs):
- Ejemplo: CLIP.
- Cómo piensan: Han leído millones de libros y fotos. Si ven una foto de un "gato", piensan: "Ah, la gente suele llamar a esto 'gato' en los textos".
- Su debilidad: A veces se confunden con detalles finos. Si ves un gato negro y un perro negro, el experto puede pensar "es un perro" porque en los textos los perros negros son comunes, ignorando que la oreja es de gato. Se basan demasiado en lo que dicen las palabras, no en lo que ven realmente los detalles.
Los "Observadores Puros" (Modelos Solo Visuales o VFMs):
- Ejemplo: DINO.
- Cómo piensan: Han mirado millones de fotos sin leer ni una sola palabra. Son expertos en ver formas, texturas y detalles.
- Su debilidad: Saben que "ese objeto tiene orejas puntiagudas y bigotes", pero no saben que a eso se le llama "gato". Les falta el nombre o el significado.

Además, cada experto tiene sus propios gustos. Uno es mejor con paisajes, otro con animales, otro con medicina. Si solo escuchas a uno, puedes equivocarte.

La Solución: SOTA (El Organizador Inteligente)

El equipo de investigadores propone SOTA (Self-adaptive Optimal Transport). No es un nuevo experto, sino un director de orquesta muy inteligente que reúne a todos los expertos.

Aquí está la analogía de cómo funciona:

1. No es una votación simple

Normalmente, si contratas a 5 expertos, podrías hacer una votación: "¿Quién cree que es un gato?". Pero SOTA hace algo más sofisticado. Usa una herramienta matemática llamada Transporte Óptimo.

Imagina que tienes un mapa de "costos".

Si el experto "Lector de Libros" dice "Es un gato", pero el experto "Observador Puro" dice "Esa forma no coincide con un gato", el director (SOTA) nota la tensión.
En lugar de ignorar al experto que tiene la razón, SOTA calcula la ruta más eficiente para mover la información de los expertos hacia la respuesta correcta, minimizando el "error" o "costo" de la decisión.

2. Se adapta solo (Auto-adaptativo)

Esta es la parte mágica: SOTA no necesita que tú le digas quién es el mejor experto.

Si en una foto de medicina, el experto médico es el que mejor ve, SOTA le da más peso automáticamente.
Si en una foto de paisajes, el experto de naturaleza es el mejor, SOTA le da más peso.
Lo hace solo, sin que tú tengas que entrenarlo ni darle instrucciones. Es como un director de orquesta que escucha a los músicos y decide instantáneamente quién debe sonar más fuerte en cada momento.

3. Sin "entrenamiento" (Training-free)

Lo mejor de todo es que SOTA no necesita aprender nada nuevo. Ya tiene a los expertos listos (los modelos que ya existen). Solo los conecta y les dice: "Trabajen juntos". No gasta tiempo ni dinero en re-entrenar a nadie.

¿Por qué es tan bueno?

El paper prueba esto en tres mundos muy diferentes:

Fotos normales: (Perros, flores, coches).
Medicina: (Análisis de tejidos y tumores).
Satélites: (Fotos de ciudades y campos desde el espacio).

En todos estos casos, SOTA logró ser mucho más preciso que cualquier experto individual.

La metáfora final:
Imagina que estás intentando armar un rompecabezas complejo.

Un experto te da las piezas de los bordes.
Otro te da las piezas del centro.
Otro te da las piezas de los colores.
Si intentas hacerlo solo con uno, fallas.
SOTA es la mano que toma todas esas piezas, las mezcla, y las coloca en su lugar perfecto sin que tú tengas que decirle dónde va cada una, creando una imagen final mucho más clara y precisa que la que cualquiera podría hacer solo.

En resumen

SOTA es una herramienta que une la fuerza de los "expertos en palabras" con la de los "expertos en imágenes", adaptándose automáticamente para sacar lo mejor de cada uno. Es como tener un equipo de superhéroes donde cada uno pone su mejor habilidad en el momento justo, sin necesidad de ensayar ni entrenar.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: SOTA

1. Planteamiento del Problema

Los modelos fundacionales (Foundation Models) han revolucionado la clasificación zero-shot (sin supervisión adicional), pero presentan limitaciones significativas cuando se utilizan de forma aislada:

Modelos Visión-Lenguaje (VLMs): Como CLIP, poseen una fuerte alineación semántica entre texto e imagen, pero tienden a depender en exceso de priors textuales a nivel de clase. Esto les dificulta capturar señales visuales de alto nivel y detalles finos (fine-grained), lo que reduce su rendimiento en categorías visualmente similares.
Modelos Solo Visión (VFMs): Como DINO o DINOv2, generan representaciones visuales ricas y altamente discriminativas, pero carecen de alineación semántica directa con las etiquetas de las categorías.
Variabilidad del Rendimiento: El rendimiento de diferentes VLMs varía drásticamente entre conjuntos de datos debido a diferencias en sus estrategias de pre-entrenamiento.
Limitación de Métodos Actuales: Las técnicas existentes suelen enfocarse en mejorar un solo modelo (mediante prompt engineering o ajuste fino) o requieren recursos computacionales intensivos, ignorando la oportunidad de integrar las fortalezas complementarias de múltiples modelos.

Objetivo: Desarrollar un marco de integración que combine múltiples modelos fundacionales (VLMs y VFMs) para aprovechar sus fortalezas complementarias sin necesidad de reentrenamiento (training-free) ni acceso a las etiquetas reales durante la inferencia.

2. Metodología: SOTA (Self-adaptive Optimal Transport)

SOTA es un marco de ensamble training-free que utiliza Transporte Óptimo (Optimal Transport - OT) para fusionar las salidas de múltiples modelos.

Componentes Clave:

Representación de Probabilidades:
- Para VLMs: Se extraen características de imagen y texto, se calcula la similitud (usualmente coseno) y se aplica una normalización softmax para obtener una distribución de probabilidad $\hat{P}$ sobre las clases.
- Para VFMs: Dado que no tienen alineación semántica, se ajustan Modelos de Mezcla Gaussiana (GMM) a las características visuales extraídas. Esto genera una distribución de probabilidad $P$ basada en la coherencia visual de los datos.
Transporte Óptimo Auto-adaptativo:
- El problema se formula como encontrar un plan de transporte $T$ que minimice el costo de mover la distribución de muestras a la distribución de clases.
- En lugar de ponderar manualmente los costos de cada modelo, SOTA introduce un mecanismo auto-adaptativo. Utiliza una formulación cuadrática en la función objetivo:
  $\max_{T, \Theta} \sum \langle T, P_v \rangle^2 + \sum \langle T, \hat{P}_v \rangle^2 + \epsilon H(T)$
- Esto permite que el algoritmo aprenda dinámicamente los pesos de cada modelo en cada iteración. Los modelos que ofrecen una mejor alineación semántica (menor costo de transporte) reciben automáticamente un peso mayor.
Optimización Conjunta (Joint Learning):
- SOTA no trata las distribuciones visuales y semánticas por separado. Propone un marco de optimización conjunta donde los parámetros del GMM ( $\Theta$ ) y el plan de transporte ( $T$ ) se actualizan iterativamente.
- Mecanismo de Retroalimentación: El plan de transporte $T$ guía la actualización de los parámetros del GMM (mejorando la agrupación visual), y el GMM refinado, a su vez, proporciona señales de supervisión más robustas para corregir el plan de transporte.
Escenarios de Inferencia:
- Transductivo: El plan de transporte $T$ se utiliza directamente como predicción final para el conjunto de datos de prueba.
- Inductivo: Se aprenden clasificadores individuales guiados por $T$ en los datos de entrenamiento, que luego se combinan para predecir datos de prueba no vistos.

3. Contribuciones Principales

Nueva Perspectiva: Es el primer trabajo que investiga sistemáticamente la complementariedad entre VLMs y VFMs para la clasificación zero-shot, proponiendo un enfoque de integración multi-modelo.
Método Novel (SOTA): Un marco de fusión simple pero efectivo que no requiere acceso a los pesos internos de los modelos (funciona con modelos "caja negra" o vía API) y no requiere ajuste fino (fine-tuning).
Resultados Prometedores: Validación exhaustiva en 26 benchmarks que abarcan imágenes naturales, patología médica y teledetección, logrando mejoras sustanciales sobre los mejores modelos individuales.

4. Resultados Experimentales

Los experimentos se realizaron en tres dominios principales:

Imágenes Naturales (11 datasets): SOTA superó consistentemente a los modelos base (CLIP, DINO) y a métodos de estado del arte (como TransCLIP, ECALP).
- Ejemplo: En el conjunto de datos StanfordCars, la combinación de CLIP y DINOv3 con SOTA logró un 86.4% de precisión, superando a CLIP solo (48.3%) en más de 38 puntos porcentuales.
Teledetección (10 datasets): En dominios donde los modelos generales fallan, SOTA integró modelos específicos (GeoRSCLIP, RemoteCLIP) logrando un promedio de 81.5%, superando significativamente a los competidores individuales.
Patología Médica (5 datasets): Logró mejoras drásticas, alcanzando un 90.4% de precisión promedio, superando a modelos especializados como MUSK y CONCH.
Análisis de Ablación:
- La introducción de VFMs fue crucial, aportando mejoras mayores que simplemente ensemblar múltiples VLMs.
- El mecanismo de auto-adaptación superó a las estrategias de pesos fijos.
- La optimización conjunta (acoplamiento de GMM y OT) fue superior al aprendizaje desacoplado.

5. Significado e Impacto

Eficiencia y Generalización: SOTA demuestra que es posible lograr un rendimiento de estado del arte sin el costo computacional del ajuste fino o la necesidad de grandes conjuntos de datos etiquetados.
Robustez: Al no depender de un único modelo, el sistema es más robusto ante cambios de dominio y sesgos específicos de un modelo pre-entrenado.
Aplicabilidad Práctica: Al ser training-free y compatible con modelos de caja negra, SOTA es fácilmente desplegable en entornos reales donde el acceso a los pesos del modelo o el poder de cómputo para el entrenamiento son limitados.
Sinergia Modal: El trabajo valida teórica y empíricamente que la combinación de la riqueza visual de los VFMs con la alineación semántica de los VLMs es la clave para superar las limitaciones actuales de la clasificación zero-shot.

En conclusión, SOTA establece un nuevo paradigma para la clasificación zero-shot al tratar la integración de múltiples modelos fundacionales como un problema de transporte óptimo auto-adaptativo, logrando un equilibrio automático y óptimo entre la precisión visual y la coherencia semántica.