HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLMs) son como unos detectives muy inteligentes que pueden ver una foto y contarte una historia sobre ella. Son increíbles, pero tienen un defecto: a veces, cuando están nerviosos o quieren impresionar, inventan cosas que no están en la foto.

Por ejemplo, si ves una foto de un perro en una cama, el detective podría decir: "¡Mira! Hay un perro en una cama, y al lado hay un sofá y una silla". Pero si miras bien la foto, solo hay una cama. ¡El sofá y la silla son alucinaciones! El detective los inventó porque en su "mente" (su entrenamiento), las camas suelen ir acompañadas de sofás.

Aquí es donde entra la propuesta de este paper, llamada HIME. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El Detective que "Sabe Demasiado"

Antes, para arreglar a estos detectives, los científicos hacían dos cosas:

Reentrenarlos: Era como enviar al detective a una escuela nueva durante meses. Muy caro y lento.
Editar el cerebro de golpe: Era como darle un "golpe" a todo su cerebro de una vez para que dejara de inventar. El problema es que, al hacerlo así, a veces el detective dejaba de inventar cosas, pero también olvidaba cosas reales.
- Ejemplo: Al quitarle la idea de "sofás", le quitamos también la idea de "cama". ¡Ahora el detective ve la cama pero no sabe qué es!

2. La Solución: HIME (El Cirujano de Precisión)

Los autores de este paper (HIME) dicen: "¡Espera! No necesitamos golpear todo el cerebro. Necesitamos saber exactamente en qué parte del cerebro ocurre la alucinación".

Para esto, crearon una herramienta llamada HIS (Puntaje de Inalucinabilidad).

La Analogía del Edificio de Pisos

Imagina que el cerebro del detective es un edificio de 30 pisos (capas de la red neuronal).

Pisos bajos: Aquí el detective mira la foto y ve los colores y formas básicas.
Pisos medios: Aquí empieza a entender qué son las cosas (es un perro, es una cama).
Pisos altos: Aquí el detective decide qué palabras decir y cuenta la historia.

El paper descubrió algo fascinante: La alucinación no ocurre en todos los pisos por igual.

En algunos pisos, el detective es muy preciso.
En otros pisos (especialmente los medios y altos), es donde empieza a "soñar despierto" y a inventar el sofá que no existe.

3. ¿Cómo funciona HIME?

HIME actúa como un cirujano de precisión o un arquitecto inteligente:

El Diagnóstico (HIS): Primero, el sistema revisa cada piso del edificio para ver cuál es el "culpable" de inventar cosas. Usa una métrica llamada HIS para medir: "¿Qué tan sensible es este piso a inventar mentiras?".
- Si un piso es muy sensible a mentir, el sistema le pone una etiqueta de "Zona de Peligro".
- Si un piso es muy honesto, lo deja tranquilo.
La Cirugía (Edición de Pesos): En lugar de golpear todo el edificio, HIME va piso por piso y hace un ajuste muy suave solo en los pisos problemáticos.
- Imagina que ajustas las tuercas de un motor. HIME afloja las tuercas que hacen que el detective invente el sofá, pero aprieta las que le ayudan a reconocer la cama.
- Es como si le dijeras al detective: "Oye, en este momento de la historia, no inventes el sofá, pero sigue viendo la cama".

4. El Resultado: Un Detective Perfecto

Gracias a este método:

Menos mentiras: El detective deja de inventar objetos que no están (el sofá desaparece de la historia).
Más verdad: Sigue reconociendo perfectamente lo que sí está (el perro y la cama).
Sin costo extra: A diferencia de otras técnicas que hacen que el detective sea más lento o necesite más energía, HIME es como un "parche" que se aplica una sola vez. Una vez arreglado, el detective trabaja a la misma velocidad que antes.

En resumen

HIME es como un entrenador personal para la inteligencia artificial que no le grita a todo el equipo, sino que identifica exactamente a qué jugador se le está escapando la pelota (la alucinación) y le da un consejo específico para que juegue mejor, sin molestar a los otros jugadores que ya están jugando bien.

El resultado es una IA que ve el mundo tal como es, sin inventar sofás donde solo hay camas, manteniendo su inteligencia y velocidad intactas. ¡Una victoria para la confianza en la tecnología!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: HIME

1. El Problema: Alucinación de Objetos en LVLMs

Los Modelos de Lenguaje y Visión Grandes (LVLMs) han demostrado capacidades impresionantes en la comprensión multimodal, pero sufren de un defecto crítico conocido como alucinación de objetos. Esto ocurre cuando el modelo describe objetos que no existen en la imagen de entrada o atribuye información factual incorrecta.

Causa: A menudo se debe a una desalineación entre modalidades, donde el modelo se basa en estadísticas de co-ocurrencia de texto (p. ej., si ve una "cama", asume que hay una "silla" o un "sofá" cerca) en lugar de en la evidencia visual real.
Limitaciones de las soluciones actuales:
- Fine-tuning: Es costoso computacionalmente y requiere datos de supervisión curados.
- Decoding-time interventions (p. ej., contraste de decodificación): Aumentan la latencia y el costo de inferencia.
- Edición de modelos (Model Editing) existente: Métodos recientes como Nullu aplican una edición de pesos uniforme en todas las capas. Esto corre el riesgo de distorsionar el conocimiento pre-entrenado del modelo, suprimiendo objetos reales junto con los alucinados (p. ej., eliminar la palabra "cama" junto con la alucinada "silla").

2. Metodología: HIME (Hallucination Insensitivity Model Editing)

El enfoque central de HIME es que la susceptibilidad a la alucinación no es uniforme a través de las capas del decodificador del LVLM. En su lugar, varía sistemáticamente según la profundidad de la red.

Componentes Clave:

Análisis de Capas y HIS (Hallucination Insensitivity Score):
- Los autores analizaron LVLMs basados en arquitecturas como Qwen, LLaMA y Vicuna. Descubrieron que ciertas capas (generalmente las intermedias) son más robustas, mientras que otras (tempranas o tardías) son más propensas a la alucinación.
- Introducen el HIS, una métrica cuantitativa que mide la sensibilidad de cada capa a la alucinación.
- Cálculo: Se compara la distribución de atención entre muestras "veraces" (ground truth) y "alucinadas" utilizando la divergencia de Kullback-Leibler (KL) sobre las matrices de atención. Una puntuación HIS baja indica que la capa no distingue bien entre verdad y alucinación, por lo que es un objetivo prioritario para la intervención.
Edición de Pesos Adaptativa por Capa:
- En lugar de editar todas las capas por igual, HIME utiliza el HIS para guiar una intervención selectiva.
- Proceso:
  1. Se extraen representaciones latentes guiadas por la atención para muestras veraces y alucinadas.
  2. Se calcula la matriz de diferencia entre estas representaciones.
  3. Se aplica Descomposición en Valores Singulares (SVD) para identificar un subespacio de baja dimensión que captura las direcciones de discrepancia (el "subespacio de alucinación").
  4. Se proyectan los pesos del modelo (específicamente en las capas MLP) ortogonalmente a este subespacio.
- Fórmula de Edición: La fuerza de la proyección se modula suavemente por el complemento del score HIS ( $HIS^c$ ). Esto permite una interpolación suave entre "sin edición" y "proyección total", evitando cambios bruscos que dañen el conocimiento pre-entrenado.
- Ventaja: Es un método sin entrenamiento (training-free). Los pesos editados se guardan y se cargan directamente, sin añadir parámetros, latencia ni sobrecarga computacional durante la inferencia.

3. Contribuciones Clave

Análisis de Susceptibilidad por Capa: Demostraron que la alucinación en LVLMs sigue patrones dependientes de la profundidad, desafiando la práctica de editar uniformemente todas las capas.
Métrica HIS: Propusieron una métrica principista para cuantificar la sensibilidad a la alucinación en las representaciones internas del decodificador.
Método HIME: Desarrollaron un algoritmo de edición de pesos adaptativo que suprime selectivamente las direcciones latentes relacionadas con la alucinación mientras preserva el conocimiento factual pre-entrenado.
Rendimiento Superior: HIME supera a métodos basados en decodificación y edición en múltiples benchmarks y arquitecturas.

4. Resultados Experimentales

Los experimentos se realizaron en tres LVLMs principales (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2) y modelos avanzados (Qwen2-VL, Qwen3-VL).

Reducción de Alucinaciones (CHAIR):
- HIME redujo las alucinaciones de objetos en un 61.8% en promedio en tareas de generación abierta (benchmark CHAIR).
- En LLaVA-1.5, el score CHAIRs (alucinaciones por oración) bajó de 20.40 (Greedy) a 13.80, superando a métodos como Nullu (15.20) y HALC (16.90).
Preservación y Mejora de Conocimiento (MME y LLaVA-Bench):
- A diferencia de la edición uniforme que degrada el rendimiento, HIME mejoró o mantuvo las puntuaciones en tareas de percepción (conteo, posición, reconocimiento) y cognición (razonamiento, código).
- En la evaluación MME, HIME superó consistentemente a la línea base y al método Nullu en tareas como "Existencia", "Conteo" y "Reconocimiento de celebridades".
Evaluación con GPT-4V:
- En tareas de descripción abierta evaluadas por GPT-4V, HIME mostró una mayor precisión factual y un nivel de detalle comparable o superior a la línea base, eliminando objetos inexistentes (como "lavadoras" o "sillas" fantasma) sin perder la riqueza de la descripción.

5. Significado e Impacto

HIME representa un avance significativo en la fiabilidad de los LVLMs para despliegues en el mundo real:

Eficiencia: Al ser un método de edición de pesos offline, no introduce latencia en tiempo de inferencia ni requiere re-entrenamiento costoso.
Seguridad del Conocimiento: Resuelve el dilema de "eliminar alucinaciones vs. perder conocimiento real" al aplicar intervenciones suaves y dirigidas solo a las capas y direcciones latentes problemáticas.
Generalización: Funciona eficazmente en diversas arquitecturas (Qwen, LLaMA, Vicuna), lo que sugiere que la susceptibilidad a la alucinación es un fenómeno estructural común en los transformadores multimodales que puede ser mitigado sistemáticamente.

En conclusión, HIME ofrece una solución práctica y escalable para hacer que los modelos de visión y lenguaje sean más confiables, precisos y seguros, eliminando alucinaciones sin sacrificar su capacidad de razonamiento general.

HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

1. El Problema: El Detective que "Sabe Demasiado"

2. La Solución: HIME (El Cirujano de Precisión)

La Analogía del Edificio de Pisos

3. ¿Cómo funciona HIME?

4. El Resultado: Un Detective Perfecto

En resumen

Resumen Técnico: HIME

1. El Problema: Alucinación de Objetos en LVLMs

2. Metodología: HIME (Hallucination Insensitivity Model Editing)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation