Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este trabajo presenta "Self-Aug", una estrategia de decodificación sin entrenamiento que mejora la consistencia factual de los Modelos Grandes de Lenguaje y Visión mediante una auto-aumentación dependiente de la consulta y un umbral adaptativo basado en la entropía.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un artista muy talentoso pero un poco soñador (este es el modelo de Inteligencia Artificial, o LVLM) al que le muestras una foto y le preguntas: "¿Qué hay en esta imagen?".

El problema es que este artista, aunque sabe mucho, a veces alucina. Es decir, inventa cosas que no están ahí. Si le muestras un perro, él podría decir: "¡Es un perro con un sombrero de copa rojo!", aunque el perro esté completamente sin sombrero. Esto pasa porque el artista confía demasiado en lo que cree que debería pasar, en lugar de mirar realmente lo que tiene delante.

Los investigadores de este paper (llamado Self-Aug) han creado una nueva forma de "entrenar" al artista sin necesidad de darle clases extra, simplemente cambiando la forma en que le hacen las preguntas. Lo hacen con dos trucos geniales:

1. El Truco del "Espejo Roto" (Selección de Aumento)

Antes, los investigadores probaban a romper la foto de formas aleatorias (girarla, ponerle ruido, tapar partes) para ver si el artista se confundía y corregía su error. Pero a veces, romper la foto al azar no servía de nada.

La idea de Self-Aug:
En lugar de romper la foto al azar, le preguntan al propio artista: "Oye, si quieres mentir sobre esta foto, ¿qué es lo más inteligente que podrías hacer para que te confundas?".

  • La analogía: Imagina que le preguntas al artista: "¿Qué color es el coche?". Si el artista alucina y dice "azul" (cuando es rojo), el sistema le dice: "Espera, vamos a probar algo. Invertamos los colores de la foto". Ahora el coche rojo se ve cian. Si el artista sigue diciendo "azul", el sistema sabe que está mintiendo, porque en la foto invertida, un coche azul se vería naranja.
  • El resultado: El sistema elige la "ruptura" perfecta (como invertir colores o tapar un objeto) específicamente para la pregunta que se hizo. Esto hace que el artista se vea obligado a pensar más y a no inventar cosas.

2. El Filtro de "Confianza" (Umbral Adaptativo)

A veces, el artista está muy seguro de lo que dice, y otras veces está muy nervioso y no sabe qué decir. Los métodos antiguos usaban una regla fija: "Si no estás 90% seguro, no digas nada". Pero esto es como usar un solo tamaño de zapato para todos: no funciona bien.

La idea de Self-Aug (SAT):
El sistema mide la "nerviosidad" (entropía) del artista en cada momento.

  • Si el artista está muy seguro (poca nerviosidad): El sistema pone el filtro muy estricto. "Si no estás 100% seguro, no te creo". Esto evita que invente detalles falsos.
  • Si el artista está nervioso (mucha incertidumbre): El sistema relaja el filtro. "Está bien, no estás seguro, pero intenta dar tu mejor respuesta sin inventar". Esto evita que el sistema borre la respuesta correcta solo porque el artista dudó un poco.

¿Por qué es importante esto?

Imagina que estás en un examen.

  • El método antiguo: Te dice "Si no sabes la respuesta al 100%, no la escribas". A veces te quedas en blanco aunque supieras la mitad.
  • El método Self-Aug: Es como tener un profesor inteligente que te dice: "Veo que estás dudando en esta pregunta de historia, así que voy a borrar la opción que inventaste. Pero en esta pregunta de matemáticas donde estás muy seguro, voy a ser muy estricto y solo aceptaré la respuesta perfecta".

En resumen

Self-Aug es como darle al artista un espejo mágico que se adapta a la pregunta específica para que no pueda mentir, y un filtro inteligente que sabe cuándo ser estricto y cuándo ser flexible según la confianza del artista.

El resultado es que el artista sigue siendo creativo, pero deja de inventar cosas que no existen, haciendo que sus respuestas sean mucho más reales y útiles para nosotros. Y lo mejor de todo: ¡no tuvieron que volver a enseñarle nada, solo le cambiaron la forma de pensar!