Are foundation models for computer vision good conformal predictors?

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un manual de seguridad para usar "super-robots" de visión artificial en situaciones donde no podemos permitirnos errores, como en un hospital o en un coche autónomo.

Aquí tienes la explicación, traducida a un lenguaje sencillo y con algunas analogías divertidas:

🤖 El Protagonista: Los "Fundamentos" (Foundation Models)

Imagina que los modelos de visión por computadora tradicionales (como los que usaban antes) eran como estudiantes que solo estudiaron para un examen específico. Si les preguntas algo fuera de ese temario, se bloquean.

Los Modelos Fundamentales (como DINO o CLIP) son como genios políglotas que han leído toda la biblioteca del mundo. Pueden reconocer un gato, entender una foto de un paisaje y hasta relacionarla con una frase escrita. Son increíblemente inteligentes y versátiles.

⚠️ El Problema: La "Sobrecarga de Confianza"

El problema es que estos genios a veces son demasiado seguros de sí mismos.

La analogía: Imagina a un estudiante que, aunque no sabe la respuesta, levanta la mano y grita: "¡Estoy 100% seguro de que es la respuesta B!" cuando en realidad es la C.
En situaciones de alto riesgo (como diagnosticar una enfermedad), esto es peligroso. Necesitamos saber cuándo el robot está dudando y cuándo está seguro.

🛡️ La Solución: La "Red de Seguridad" (Conformal Prediction)

Aquí es donde entra el Conformal Prediction (CP). Imagina que en lugar de pedirle al robot que elija una sola respuesta, le decimos: "Dime un grupo de 3 o 4 opciones que incluyan la respuesta correcta con un 90% de seguridad".

Si el robot está seguro: Le dará un grupo pequeño (ej. {"Gato", "Perro"}).
Si el robot está dudando: Le dará un grupo grande (ej. {"Gato", "Perro", "Zorro", "Lobo", "Tigre"}).
La promesa: El método garantiza matemáticamente que la respuesta correcta siempre estará dentro de esa lista, sin importar qué tan raro sea el dibujo.

🔍 ¿Qué descubrieron los autores?

Los investigadores probaron esta "red de seguridad" con estos genios políglotas y encontraron cosas muy interesantes:

1. Los genios son mejores para la seguridad que los estudiantes tradicionales

Los modelos modernos (especialmente los que usan Transformers, una arquitectura tipo "cerebro de red neuronal") funcionan mejor con esta red de seguridad que los modelos antiguos.

Analogía: Es como si un coche moderno con sensores de última generación pudiera usar un sistema de frenado de emergencia más eficiente que un coche de los años 90, incluso si ambos van a la misma velocidad.

2. ¡Cuidado con "calibrar" la confianza!

A veces, los ingenieros intentan "ajustar" la confianza del robot para que sea más realista (esto se llama calibración).

El hallazgo: Sorprendentemente, cuando ajustas la confianza del robot para que sea más "humilde", la red de seguridad se vuelve menos eficiente.
La analogía: Es como si, para que el robot sea más honesto sobre sus dudas, tuvieras que darle una lista de 50 opciones en lugar de 5. La lista sigue siendo segura (la respuesta correcta está ahí), pero es demasiado larga y poco práctica para tomar una decisión rápida.

3. La "Adaptación Rápida" (Few-Shot) es un superpoder

Los modelos modernos pueden aprender nuevas tareas con muy pocos ejemplos (como aprender a reconocer un nuevo tipo de perro viendo solo 5 fotos).

El hallazgo: Cuando el robot se adapta a una nueva tarea con pocos ejemplos, la red de seguridad funciona mejor que cuando intenta adivinar sin haber visto nada antes (modo "cero ejemplos").
Analogía: Es mejor darle al robot un pequeño manual de instrucciones (pocos ejemplos) que dejarlo solo en la oscuridad. Con ese pequeño manual, sus listas de seguridad son más precisas y cortas.

4. La mejor herramienta: "APS"

Entre las diferentes formas de crear estas listas de seguridad, una llamada APS (Conjuntos de Predicción Adaptativos) fue la campeona.

Por qué: Es como un chaleco salvavidas inteligente. Si el agua está tranquila, el chaleco es ligero. Si hay una tormenta (cambio de datos o imágenes raras), el chaleco se infla automáticamente para darte más protección, asegurando que no te ahogues, aunque sea un poco más incómodo.
La otra opción (RAPS): Es un chaleco más rígido. Es más cómodo (listas más cortas) en aguas tranquilas, pero si viene una ola gigante, a veces falla en protegerte completamente.

🎯 Conclusión: ¿Qué debemos hacer?

El mensaje final del artículo es: Sí, estos modelos de IA son excelentes para usarse en situaciones críticas, pero hay que usarlos con la herramienta de seguridad correcta.

Si trabajas en un hospital o seguridad, usa el método APS. Es mejor tener una lista un poco más larga de opciones posibles (que te diga "podría ser esto o aquello") a tener una lista corta que se equivoque.
No te preocupes tanto por "ajustar" la confianza del modelo si eso hace que las listas sean demasiado largas.
Los modelos modernos (Transformers) son los mejores candidatos para esto.

En resumen: Los robots son muy listos, pero para que sean seguros, necesitamos una "red de seguridad" que sepa cuándo inflarse y cuándo mantenerse pequeña.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico

1. Problema y Motivación

Los modelos fundacionales de visión (como DINOv2, CLIP, etc.) han alcanzado un rendimiento sin precedentes en diversas tareas gracias al aprendizaje auto-supervisado y contrastivo. Sin embargo, su despliegue en aplicaciones de alto riesgo (salud, seguridad) requiere una comprensión robusta de su incertidumbre.

Limitación actual: Las estrategias tradicionales de calibración (como Temperature Scaling) buscan alinear la probabilidad predicha con la precisión real, pero carecen de garantías teóricas estrictas.
Brecha de investigación: Aunque la Predicción Conformal (CP) ofrece garantías teóricas de cobertura marginal (asegurando que el conjunto de predicciones contenga la etiqueta verdadera con una probabilidad $1-\alpha$ ), su comportamiento en modelos fundacionales de visión no ha sido explorado exhaustivamente. Se desconoce si estos modelos, a menudo utilizados en zero-shot o con few-shot learning, son adecuados para la conformalización y cómo afectan factores como la deriva de distribución (domain shift) o la calibración de confianza a la eficiencia de los conjuntos conformales.

2. Metodología

Los autores realizaron un análisis empírico extenso evaluando el comportamiento de la Predicción Conformal en 17 modelos fundacionales de visión (incluyendo DINO, DINOv2, VICReg y modelos Visión-Lenguaje como CLIP, MetaCLIP, LLaVa) sobre múltiples datasets (CIFAR-10, CIFAR-100, ImageNet y sus variantes con deriva de distribución).

Componentes clave del estudio:

Métodos de CP evaluados: Se compararon tres enfoques principales de puntuación de no conformidad (non-conformity scores):
1. LAC (Least Ambiguous Classifier): Umbralización directa de probabilidades.
2. APS (Adaptive Prediction Sets): Acumula probabilidades en orden descendente hasta alcanzar la cobertura.
3. RAPS (Regularized Adaptive Prediction Sets): Introduce una regularización para penalizar conjuntos grandes, buscando mejorar la eficiencia.
Escenarios de evaluación:
- Configuración estándar: Sin deriva de distribución.
- Deriva de distribución (Domain Shift): Evaluación en variantes de ImageNet (ImageNet-A, R, Sketch, V2) donde el conjunto de calibración y prueba difieren.
- Calibración de confianza: Análisis del impacto de aplicar Temperature Scaling (TS) en los modelos antes de la conformalización.
- Adaptación Few-Shot: Comparación entre predicciones zero-shot y modelos adaptados (mediante Prompt Learning o Adapters) a tareas nuevas.
Métricas: Tamaño del conjunto de predicción (eficiencia), cobertura marginal, cobertura condicional por clase (MCCC) y brecha de cobertura (coverage gap).

3. Contribuciones Clave y Hallazgos

El estudio revela seis observaciones fundamentales:

Superioridad de los Modelos Fundacionales: Los modelos fundacionales (especialmente los basados en Vision Transformers como DINO y CLIP) producen conjuntos de predicción más pequeños y una mayor cobertura condicional por clase en comparación con modelos tradicionales entrenados de forma totalmente supervisada (como ViT entrenado solo en ImageNet). Esto sugiere que las estrategias de pre-entrenamiento (auto-supervisado/contrastivo) generan representaciones más robustas para la incertidumbre.
Rendimiento de los Métodos CP:
- APS es el método más robusto en términos de garantizar la cobertura marginal, especialmente bajo deriva de distribución.
- RAPS ofrece el mejor equilibrio en cuanto al tamaño del conjunto (eficiencia), pero a costa de una mayor variabilidad en la cobertura condicional por clase.
- LAC tiende a tener una cobertura condicional inconsistente.
Robustez ante Deriva de Distribución: Bajo domain shift, APS mantiene las garantías de cobertura al aumentar significativamente el tamaño del conjunto de predicción. En contraste, RAPS y LAC sufren una caída en la cobertura marginal debido a que sus mecanismos de penalización o umbral fijo limitan la capacidad de adaptación a nuevas distribuciones.
Efecto Contraproducente de la Calibración: Contrario a la intuición, calibrar los modelos (ej. con Temperature Scaling) deteriora la eficiencia de los conjuntos conformales (aumenta el tamaño del conjunto), especialmente en métodos adaptativos como APS. Aunque la calibración mejora la precisión de las probabilidades, suaviza la distribución de softmax, obligando al algoritmo CP a incluir más clases para mantener la cobertura garantizada.
Ventaja del Few-Shot en VLMs: La adaptación de modelos Visión-Lenguaje (VLMs) a tareas específicas mediante few-shot learning mejora los resultados conformales (menor tamaño de conjunto y menor brecha de cobertura) en comparación con las predicciones zero-shot en datos dentro de la distribución (ID).
Arquitectura: Los modelos que integran Vision Transformers (ViT) muestran una degradación menor en las métricas conformales bajo deriva de dominio en comparación con los que utilizan Redes Neuronales Convolucionales (CNN).

4. Resultados Cuantitativos Destacados

En escenarios de deriva de distribución (ej. ImageNet-A), APS logra mantener una cobertura marginal cercana al 90% (el objetivo), mientras que RAPS y LAC caen significativamente (a veces por debajo del 60-70%).
La aplicación de Temperature Scaling (T=1.1) en modelos como DINOv2-B aumentó el tamaño promedio del conjunto conformal de ~7.5 a ~10.5 (para APS), demostrando la pérdida de eficiencia.
En tareas de few-shot (16 disparos), los métodos de adaptación como CoOp y CLAP redujeron el tamaño del conjunto en un 30-50% respecto al zero-shot en datos ID, manteniendo una cobertura adecuada.

5. Significado e Impacto

Este trabajo es fundamental para el despliegue seguro de IA en entornos críticos:

Guía de Selección: Proporciona una hoja de ruta para elegir el método CP adecuado. Si la prioridad es la seguridad absoluta (evitar falsos negativos en diagnóstico médico), APS es la elección preferente a pesar de conjuntos más grandes. Si la prioridad es la eficiencia computacional y el tamaño del conjunto, RAPS es viable en entornos estables.
Advertencia sobre Calibración: Desmiente la suposición de que calibrar un modelo siempre mejora su utilidad en CP; en realidad, puede hacer que los conjuntos de predicción sean menos prácticos.
Validación de Modelos Fundacionales: Confirma que los modelos fundacionales modernos, gracias a sus representaciones ricas, son candidatos ideales para la conformalización, superando a los modelos tradicionales supervisados en términos de garantías de incertidumbre.

En conclusión, el estudio establece que los modelos fundacionales de visión son excelentes candidatos para la Predicción Conformal, pero su implementación requiere una selección cuidadosa del método (preferiblemente APS para robustez) y una consideración crítica de si la calibración previa es realmente beneficiosa para el objetivo de incertidumbre específico.