NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

El artículo presenta NoLan, un marco de inferencia sin entrenamiento que mitiga las alucinaciones de objetos en modelos de visión y lenguaje grandes al suprimir dinámicamente los priores del lenguaje del decodificador, logrando mejoras significativas en la precisión sin necesidad de reentrenamiento.

Lingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

Publicado 2026-02-26
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un asistente de IA muy inteligente que puede ver fotos y describirlas con palabras. Este es un modelo de "Visión-Lenguaje" (LVLM). Pero, como todo ser humano (o máquina) que ha leído millones de libros, a veces este asistente tiene un problema grave: alucina.

¿Qué es la "alucinación" en este contexto?

Imagina que le muestras al asistente una foto de un perro en un parque.

  • Lo correcto: "Veo un perro marrón corriendo".
  • La alucinación: "Veo un perro, un gato, un elefante y un cohete espacial".

El asistente inventó cosas que no están en la foto. Esto es peligroso si usas la IA para ayudar a un médico, un robot o un coche autónomo.

El gran misterio: ¿Quién es el culpable?

Los investigadores se preguntaron: ¿Quién está fallando?

  1. ¿Es el ojo (el codificador de visión) que no ve bien?
  2. ¿O es el cerebro (el decodificador de lenguaje) que está soñando despierto?

El hallazgo sorprendente:
El equipo descubrió que el "ojo" (la visión) funciona bastante bien. El problema es el "cerebro" (el lenguaje).
Piensa en el cerebro de la IA como un novelista muy leído. Este novelista ha leído tantas historias que, cuando le preguntas "¿Qué hay en la foto?", su cerebro empieza a decir: "¡Ah, las fotos de perros suelen tener gatos también! ¡Y seguro hay un árbol de fondo!".
El modelo confía más en lo que sabe por sus libros (sus "priors" o prejuicios lingüísticos) que en lo que ve realmente en la imagen.

La solución: NoLan (No-Language-Hallucination)

Para arreglar esto, crearon un método llamado NoLan. No necesitan reentrenar al modelo (lo cual sería como obligar al novelista a estudiar años más), sino que le ponen unas "gafas de realidad" durante el momento de escribir.

La analogía del "Contraste de Realidad":

Imagina que el asistente va a escribir una respuesta. NoLan le hace hacer un ejercicio mental rápido en dos pasos:

  1. Paso A (La Realidad): Le muestra la foto y la pregunta. El asistente piensa: "¿Qué veo aquí?".
  2. Paso B (La Fantasía): Le quita la foto y solo le da la pregunta. El asistente piensa: "¿Qué diría si no viera nada, solo basándome en mis libros?".

El truco mágico:
NoLan compara las dos respuestas.

  • Si el asistente dice "Perro" en ambos casos (con y sin foto), es que está alucinando (confiando solo en su memoria).
  • Si dice "Perro" con la foto, pero "Nada" o "Un gato" sin la foto, es que está viendo la realidad.

NoLan usa una fórmula matemática (un poco como un filtro de ruido) para bajar el volumen de las palabras que el asistente inventó por su cuenta y subir el volumen de las palabras que coinciden con lo que realmente ve.

¿Cómo funciona en la práctica?

Es como tener un editor de texto en tiempo real muy estricto:

  • Si la IA empieza a escribir "y un elefante...", el editor le dice: "¡Espera! Si quitamos la foto, ¿sigues viendo un elefante? ¡No! Entonces, borra eso".
  • Si la IA escribe "y un perro...", el editor dice: "¡Correcto! Si quitamos la foto, ya no lo ves, así que es porque la foto lo tiene. ¡Mantén esa palabra!".

Los resultados

Con este simple truco (que no requiere volver a entrenar al modelo ni gastar millones de dólares):

  • La IA deja de inventar objetos.
  • Se vuelve mucho más precisa en pruebas donde debe decir si un objeto está presente o no.
  • Funciona con diferentes modelos grandes (como LLaVA o Qwen).

En resumen

NoLan es como enseñarle a un novelista distraído a mirar la foto antes de escribir. Le dice: "No te dejes llevar por lo que crees que debería haber; mira lo que realmente está ahí". Es una solución simple, barata y muy efectiva para que la Inteligencia Artificial sea más honesta y confiable.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →