Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un artista muy talentoso pero un poco soñador (este es el modelo de Inteligencia Artificial, o LVLM) al que le muestras una foto y le preguntas: "¿Qué hay en esta imagen?".

El problema es que este artista, aunque sabe mucho, a veces alucina. Es decir, inventa cosas que no están ahí. Si le muestras un perro, él podría decir: "¡Es un perro con un sombrero de copa rojo!", aunque el perro esté completamente sin sombrero. Esto pasa porque el artista confía demasiado en lo que cree que debería pasar, en lugar de mirar realmente lo que tiene delante.

Los investigadores de este paper (llamado Self-Aug) han creado una nueva forma de "entrenar" al artista sin necesidad de darle clases extra, simplemente cambiando la forma en que le hacen las preguntas. Lo hacen con dos trucos geniales:

1. El Truco del "Espejo Roto" (Selección de Aumento)

Antes, los investigadores probaban a romper la foto de formas aleatorias (girarla, ponerle ruido, tapar partes) para ver si el artista se confundía y corregía su error. Pero a veces, romper la foto al azar no servía de nada.

La idea de Self-Aug:
En lugar de romper la foto al azar, le preguntan al propio artista: "Oye, si quieres mentir sobre esta foto, ¿qué es lo más inteligente que podrías hacer para que te confundas?".

La analogía: Imagina que le preguntas al artista: "¿Qué color es el coche?". Si el artista alucina y dice "azul" (cuando es rojo), el sistema le dice: "Espera, vamos a probar algo. Invertamos los colores de la foto". Ahora el coche rojo se ve cian. Si el artista sigue diciendo "azul", el sistema sabe que está mintiendo, porque en la foto invertida, un coche azul se vería naranja.
El resultado: El sistema elige la "ruptura" perfecta (como invertir colores o tapar un objeto) específicamente para la pregunta que se hizo. Esto hace que el artista se vea obligado a pensar más y a no inventar cosas.

2. El Filtro de "Confianza" (Umbral Adaptativo)

A veces, el artista está muy seguro de lo que dice, y otras veces está muy nervioso y no sabe qué decir. Los métodos antiguos usaban una regla fija: "Si no estás 90% seguro, no digas nada". Pero esto es como usar un solo tamaño de zapato para todos: no funciona bien.

La idea de Self-Aug (SAT):
El sistema mide la "nerviosidad" (entropía) del artista en cada momento.

Si el artista está muy seguro (poca nerviosidad): El sistema pone el filtro muy estricto. "Si no estás 100% seguro, no te creo". Esto evita que invente detalles falsos.
Si el artista está nervioso (mucha incertidumbre): El sistema relaja el filtro. "Está bien, no estás seguro, pero intenta dar tu mejor respuesta sin inventar". Esto evita que el sistema borre la respuesta correcta solo porque el artista dudó un poco.

¿Por qué es importante esto?

Imagina que estás en un examen.

El método antiguo: Te dice "Si no sabes la respuesta al 100%, no la escribas". A veces te quedas en blanco aunque supieras la mitad.
El método Self-Aug: Es como tener un profesor inteligente que te dice: "Veo que estás dudando en esta pregunta de historia, así que voy a borrar la opción que inventaste. Pero en esta pregunta de matemáticas donde estás muy seguro, voy a ser muy estricto y solo aceptaré la respuesta perfecta".

En resumen

Self-Aug es como darle al artista un espejo mágico que se adapta a la pregunta específica para que no pueda mentir, y un filtro inteligente que sabe cuándo ser estricto y cuándo ser flexible según la confianza del artista.

El resultado es que el artista sigue siendo creativo, pero deja de inventar cosas que no existen, haciendo que sus respuestas sean mucho más reales y útiles para nosotros. Y lo mejor de todo: ¡no tuvieron que volver a enseñarle nada, solo le cambiaron la forma de pensar!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Self-Aug: QUERY AND ENTROPY ADAPTIVE DECODING FOR LARGE VISION-LANGUAGE MODELS", presentado en ICLR 2026.

1. El Problema: Alucinaciones en Modelos de Visión-Lenguaje (LVLMs)

Los Modelos Grandes de Visión-Lenguaje (LVLMs) han demostrado capacidades multimodales excepcionales, pero heredan la tendencia de sus modelos base de lenguaje a generar alucinaciones: outputs plausibles pero fácticamente incorrectos o sin sentido.

Causa: Este comportamiento es un subproducto del objetivo de entrenamiento auto-regresivo, que prioriza correlaciones espurias sobre la comprensión precisa de los hechos.
Limitaciones de métodos existentes:
- Decodificación Contrastiva Visual (VCD): Métodos anteriores intentan mitigar alucinaciones contrastando la salida del modelo "experto" con una salida "amateur" generada a partir de una imagen degradada (ruido aleatorio). Sin embargo, suelen aplicar aumentos visuales genéricos que ignoran el contexto específico de la consulta de texto.
- Selección de Aumento Ineficiente: Enfoques como VACoDe seleccionan aumentos basándose en la divergencia del primer token, lo cual es una medida empírica que no garantiza la mejor elección para secuencias de generación largas o tareas de razonamiento complejo.
- Restricciones de Plausibilidad Rígidas: Los métodos actuales de umbralización (como APC) dependen del valor máximo del logit (máxima probabilidad), ignorando la información rica de la distribución completa (como la incertidumbre o entropía del modelo), lo que puede llevar a descartar tokens correctos en estados de baja confianza.

2. Metodología: Self-Aug

El artículo propone Self-Aug, una estrategia de decodificación libre de entrenamiento que se adapta dinámicamente tanto a la consulta de texto como a la confianza del modelo. Se compone de dos contribuciones principales:

A. Selección de Auto-Aumento (Self-Augmentation Selection - SAS)

En lugar de usar aumentos visuales aleatorios o predefinidos, Self-Aug utiliza el conocimiento paramétrico intrínseco del propio LVLM para seleccionar el aumento visual más adecuado para la consulta específica.

Mecanismo: Se utiliza un prompt estructurado (SAS Prompt) que incluye definiciones de aumentos (corte aleatorio, máscara, inversión de color, ruido, volteo horizontal/vertical) y ejemplos de in-context learning (ICL).
Proceso: El modelo recibe la consulta de texto y el prompt, y realiza un razonamiento (Chain-of-Thought) para determinar qué aumento visual invalidaría mejor la premisa de la pregunta o impediría una respuesta confusa.
Objetivo: Alinear semánticamente la perturbación visual con la intención de la consulta, maximizando la divergencia informativa entre el modelo experto (imagen original) y el amateur (imagen aumentada).

B. Umbralización Adaptativa de Dispersión (Sparsity Adaptive Truncation - SAT)

Para abordar las limitaciones de las restricciones de plausibilidad existentes, se introduce SAT, un algoritmo que ajusta dinámicamente el umbral de selección de tokens basado en la entropía de la distribución de logits.

Principio: La incertidumbre del modelo se correlaciona con la entropía de su distribución de salida.
- Alta Entropía (Baja confianza): Se requiere un umbral más permisivo para no descartar tokens relevantes en un espacio de búsqueda amplio.
- Baja Entropía (Alta confianza): Se requiere un umbral más restrictivo para refinar el conjunto de candidatos y penalizar falsos positivos.
Función: Se define una función de decaimiento sigmoidal ( $H_{decay}$ ) que mapea la entropía de Shannon a un factor de umbral $\beta$ . Esto permite que el método utilice toda la información de la distribución de logits, no solo el valor máximo.

3. Contribuciones Clave

Estrategia SAS: Un método de prompting que aprovecha el conocimiento del modelo para seleccionar aumentos visuales semánticamente relevantes, extrayendo discrepancias más informativas que los métodos heurísticos.
Algoritmo SAT: Una mejora sobre las restricciones de plausibilidad adaptativas (APC) que utiliza la entropía del logit experto para establecer umbrales dinámicos, mejorando la fidelidad de la generación.
Validación Empírica: Demostración exhaustiva de que la combinación de aumento dependiente de la consulta y decodificación consciente de la entropía reduce significativamente las alucinaciones sin requerir reentrenamiento ni modificaciones arquitectónicas.

4. Resultados Experimentales

Los autores evaluaron Self-Aug en 5 LVLMs (incluyendo LLaVA-1.5, Qwen-VL, InstructBLIP, Qwen3-VL) y 7 benchmarks (discriminativos como POPE, MME, MMVP; y generativos como MM-Vet, LLaVA-Bench).

Rendimiento General: Self-Aug superó consistentemente a los métodos state-of-the-art (Multinomial, VCD, VACoDe).
- En el benchmark POPE (detección de objetos), Self-Aug logró ganancias de hasta un 18.78% en precisión F1 respecto al muestreo multinomial en InstructBLIP.
- En benchmarks generativos como MM-Vet y LLaVA-Bench, mostró mejoras significativas en la consistencia factual y reducción de la tasa de alucinaciones.
Análisis de Componentes:
- La selección de aumento adaptativa superó a las estrategias estáticas (usar siempre el mismo aumento) en todos los casos.
- El uso de SAT superó al umbral fijo (APC) en todas las configuraciones de decodificación, con una ganancia promedio del 4.94%.
Eficiencia Computacional: Aunque Self-Aug requiere una pasada de generación de texto adicional para seleccionar el aumento, es computacionalmente más eficiente que VACoDe (que requiere pasadas completas para cada posible aumento), ya que evita el procesamiento de tokens visuales en la fase de selección.

5. Significado e Impacto

Este trabajo es significativo porque cambia el paradigma de la mitigación de alucinaciones en LVLMs:

Dependencia del Contexto: Demuestra que la perturbación visual debe ser dependiente de la consulta de texto para ser efectiva, en lugar de ser una degradación aleatoria genérica.
Conciencia de la Confianza: Introduce un enfoque más sofisticado para la decodificación que considera la incertidumbre del modelo (entropía) en tiempo real, evitando la rigidez de los umbrales fijos.
Aplicabilidad: Al ser un método de decodificación training-free, es fácilmente integrable en cualquier LVLM existente, ofreciendo una vía práctica para mejorar la fiabilidad de los sistemas multimodales sin el costo de reentrenamiento masivo.

En conclusión, Self-Aug establece un nuevo estándar para la decodificación en modelos multimodales, demostrando que la alineación semántica entre la consulta y la perturbación visual, junto con una gestión adaptativa de la incertidumbre, es crucial para generar respuestas más precisas y libres de alucinaciones.

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

1. El Truco del "Espejo Roto" (Selección de Aumento)

2. El Filtro de "Confianza" (Umbral Adaptativo)

¿Por qué es importante esto?

En resumen

1. El Problema: Alucinaciones en Modelos de Visión-Lenguaje (LVLMs)

2. Metodología: Self-Aug

A. Selección de Auto-Aumento (Self-Augmentation Selection - SAS)

B. Umbralización Adaptativa de Dispersión (Sparsity Adaptive Truncation - SAT)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach