MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un super-intelecto (un modelo de IA llamado "Omni LLM") que puede ver videos, escuchar audios y hablar como un humano. Es increíblemente inteligente, pero tiene un defecto muy curioso: a veces alucina.

¿Qué significa alucinar en este contexto? Significa que el modelo "ve" cosas que no están ahí o "oye" sonidos que no existen, simplemente porque su cerebro (entrenado principalmente con texto) asume que deberían estar allí.

Aquí te explico cómo los autores de este paper, MoD-DPO, solucionan este problema usando una analogía sencilla.

1. El Problema: El "Efecto de la Película de Hollywood"

Imagina que estás viendo una película de terror. En la pantalla (video) solo ves un pasillo vacío y silencioso. Pero, como en las películas de terror suele haber música de miedo, tu cerebro (o el de la IA) asume que hay un monstruo acechando y que se oirán pasos.

La IA tradicional: Si le preguntas "¿Oyes pasos?", dirá "Sí", aunque el audio esté en silencio. ¿Por qué? Porque confía más en lo que cree que debería pasar (basado en el texto y la cultura popular) que en lo que realmente está pasando en el video o el audio.
El error: La IA mezcla las pistas. Si el video muestra un perro, la IA "oye" un ladrido aunque el audio esté en silencio. Si el audio tiene un ladrido, la IA "ve" un perro aunque el video muestre una calle vacía.

2. La Solución: MoD-DPO (El Entrenador de Realidad)

Los autores proponen un nuevo método de entrenamiento llamado MoD-DPO (Optimización de Preferencia Desacoplada de Modalidades). Imagina que MoD-DPO es un entrenador de realidad muy estricto que le enseña a la IA a separar sus sentidos.

El entrenador usa dos reglas de oro (dos "reglas de juego") para limpiar la mente de la IA:

Regla A: La "Invarianza" (Ser sordo o ciego a lo irrelevante)

Imagina que le estás preguntando a la IA sobre lo que ve en un video.

El truco del entrenador: El entrenador toma el video, pero borra o distorsiona el audio (lo hace "ruidoso" o lo cambia por música de fondo).
La lección: Si la IA sigue respondiendo lo mismo sobre el video (ej. "Sí, veo un perro"), ¡bien! Significa que está prestando atención solo a lo visual.
El castigo: Si la IA cambia su respuesta porque el audio cambió (ej. "Ah, como el audio ahora es de un gato, el perro desapareció"), ¡mal! La IA está confundiendo los sentidos. El entrenador le dice: "¡Oye! El audio no importa para esta pregunta. No dejes que el ruido te distraiga".

Regla B: La "Sensibilidad" (Prestar atención a lo importante)

Ahora, le preguntamos sobre lo que oye.

El truco del entrenador: Esta vez, el entrenador borra o distorsiona el video (lo pone en blanco y negro o lo cambia por una imagen estática), pero deja el audio intacto.
La lección: Si la IA cambia su respuesta porque el video cambió (ej. "Ya no oigo el perro porque la imagen cambió"), ¡mal! La IA está ignorando el audio.
El castigo: La IA debe ser muy sensible al audio. Si el audio cambia, su respuesta debe cambiar drásticamente. Debe decir: "¡Espera! El video no importa, pero el sonido del perro es real, así que la respuesta es SÍ".

3. El "Antídoto" contra la Prejuicio Lingüístico

Hay un tercer problema: la IA es muy "vaga" y prefiere responder solo con texto porque es más fácil.

La analogía: Es como un estudiante que, en un examen de ciencias, ignora los gráficos y las fórmulas y solo escribe lo que cree que el profesor quiere oír, basándose en lo que leyó en un libro de texto.
La solución (Penalización de Prioridad Lingüística): MoD-DPO le da un "chupetón" (una penalización) a la IA si intenta responder solo con texto sin mirar los datos reales. Le obliga a decir: "No puedo responder solo con palabras; necesito mirar el video o escuchar el audio para estar seguro".

4. El Resultado: Un Detective de la Verdad

Después de este entrenamiento especial:

La IA deja de inventar cosas.
Si le preguntas sobre un video, mira el video y no inventa sonidos.
Si le preguntas sobre un audio, escucha el audio y no inventa imágenes.
Se vuelve más honesta y confiable.

En resumen

MoD-DPO es como un entrenador que le enseña a una IA con superpoderes a no mezclar sus sentidos. Le dice: "Cuando te pregunto sobre lo que ves, cierra los oídos. Cuando te pregunto sobre lo que oyes, cierra los ojos. Y no te inventes la respuesta solo porque tu libro de texto dice que debería ser así".

Gracias a esto, la IA deja de alucinar y empieza a ser un verdadero observador de la realidad, entendiendo mejor lo que realmente sucede en el mundo audiovisual.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: MoD-DPO

1. El Problema: Alucinaciones Cross-Modales en Modelos Omni

Los Modelos de Lenguaje Grande Omnimodales (Omni LLMs) han demostrado un rendimiento excepcional en tareas de comprensión audiovisual. Sin embargo, sufren de alucinaciones cross-modales, un fenómeno donde el modelo genera información falsa basándose en correlaciones espurias entre modalidades o en priores lingüísticos dominantes.

Estas alucinaciones se manifiestan de dos formas principales:

Correlaciones Inter-modales Espurias: El modelo infiere eventos visuales basándose en pistas auditivas irrelevantes (o viceversa), incluso cuando la evidencia en la modalidad relevante es débil o inexistente.
Sobre-dependencia de Priores Lingüísticos: Debido a que los modelos base (LLMs) están preentrenados masivamente en texto, tienden a ignorar las entradas audiovisuales y generar respuestas basadas únicamente en lo que "esperan" que suceda según el texto, ignorando la realidad del video o audio.

Los métodos existentes, como la optimización directa de preferencias (DPO) multimodal estándar o las defensas en tiempo de decodificación (como la Decodificación Contrastiva Visual), no logran desacoplar completamente las rutas de las modalidades ni penalizar explícitamente los atajos basados solo en texto.

2. Metodología: MoD-DPO (Optimización de Preferencias Desacoplada por Modalidad)

Los autores proponen MoD-DPO, un marco de optimización de preferencias diseñado para forzar al modelo a ser fiel a la evidencia de la modalidad relevante y robusto ante perturbaciones en las irrelevantes.

A. Desacoplamiento de Entradas de Modalidad
El objetivo central es modificar la función de pérdida de DPO estándar para incluir dos propiedades complementarias mediante términos de regularización KL (Kullback-Leibler):

Invarianza (Invariance): Cuando la modalidad irrelevante para una pregunta específica se corrompe (ej. ruido en el audio para una pregunta sobre video), la distribución de salida del modelo debe permanecer estable. Esto evita que el modelo se deje influir por información no pertinente.
Sensibilidad (Sensitivity): Cuando la modalidad relevante se corrompe, la distribución de salida debe cambiar significativamente. Esto asegura que el modelo sea sensible a la pérdida de la información crítica.

La función de pérdida resultante para prompts relacionados con video ( $x_v$ ) se formula como:
$L_{MoD}^v = -\mathbb{E} \left[ \log \sigma \left( \tau \log \frac{\pi_\theta(y_w)}{\pi_\theta(y_l)} - \beta \log \frac{\pi_{ref}(y_w)}{\pi_{ref}(y_l)} - \beta_{inv} \log \frac{\pi'_\theta(y_w|a')}{\pi'_\theta(y_l|a')} + \beta_{sens} \log \frac{\pi'_\theta(y_w|v')}{\pi'_\theta(y_l|v')} \right) \right]$
Donde $a'$ y $v'$ son versiones corruptas de audio y video, y los hiperparámetros $\beta_{inv}$ y $\beta_{sens}$ controlan la fuerza de la invarianza y sensibilidad, respectivamente.

B. Penalización de Desviación de Priores Lingüísticos (LPD)
Para mitigar la sobre-dependencia del texto, se introduce una penalización de desviación de priores lingüísticos. Se añade un término a la recompensa que castiga la probabilidad de generar una respuesta correcta utilizando solo la entrada de texto (sin audio/video). Esto fuerza al modelo a depender de las señales multimodales reales en lugar de adivinar basándose en el lenguaje.

C. Generación de Datos de Preferencia
El método utiliza un pipeline automatizado de tres etapas para generar un conjunto de datos de preferencias de 18,112 muestras (más de 10,000 videos únicos):

Desentrelazado: Se generan descripciones y etiquetas separadas para audio y video usando modelos como GPT-4o y AudioFlamingo 3.
Generación de QA: Se crean preguntas y respuestas sobre la presencia de objetos/eventos y la descripción de modalidades específicas.
Creación de Pares de Preferencia: Se generan respuestas "rechazadas" (hard negatives) que incluyen información espuria de la modalidad irrelevante (ej. describir un sonido que no existe basándose en el video), obligando al modelo a aprender a ignorar esas correlaciones falsas.

3. Contribuciones Clave

Marco MoD-DPO: Una técnica de optimización de preferencias que desacopla explícitamente las modalidades durante el entrenamiento, forzando invarianza ante ruido en modalidades irrelevantes y sensibilidad ante corrupción en las relevantes.
Penalización LPD: Un mecanismo novedoso para reducir la influencia de los priores lingüísticos dominantes en modelos omni, mejorando la fidelidad a las entradas audiovisuales.
Conjunto de Datos Automatizado: Creación de un dataset de preferencias a gran escala con muestras generadas automáticamente que cubren correlaciones espurias y tareas de presencia de objetos/eventos.
Solución de Forma Cerrada: Derivación de una solución de forma cerrada para el objetivo de MoD-DPO, permitiendo una optimización eficiente sin necesidad de un modelo de recompensa separado.

4. Resultados Experimentales

Los autores evaluaron MoD-DPO (y su variante mejorada MoD-DPO++) en dos benchmarks principales de alucinación cross-modal: AVHBench y Curse of Multi-Modalities (CMM), utilizando modelos base como Qwen 2.5 Omni y MiniCPM-O 2.6.

Rendimiento Superior: MoD-DPO++ superó consistentemente a los baselines (DPO estándar, OmniDPO) en precisión, recuperación (recall) y puntuación F1.
- En AVHBench, mostró mejoras de hasta un 27% en la tarea de emparejamiento audiovisual en comparación con el modelo de referencia.
- En CMM, logró un aumento del 3-4% en el rendimiento general, con mejoras significativas en la resistencia a la alucinación.
Reducción de Alucinaciones: La ablación demostró que la penalización LPD es crucial para reducir las alucinaciones inducidas por priores lingüísticos, aumentando la "resistencia a la alucinación" (hallucination resistance).
Análisis de Atención: Los modelos entrenados con MoD-DPO++ mostraron un aumento significativo en la atención asignada a los tokens audiovisuales, confirmando que el modelo se enfoca más en la evidencia real y menos en el texto.
Eficiencia: A pesar de las pasadas forward adicionales para las entradas corruptas, el método converge más rápido que OmniDPO y requiere menos FLOPs totales debido a la falta de gradientes en las pasadas de referencia.

5. Significado e Impacto

Este trabajo es fundamental para el desarrollo de Modelos Fundacionales Multimodales fiables y resilientes.

Validación de la Desacoplación: Demuestra que la alineación fiel a la modalidad (modality-faithful alignment) es posible mediante la optimización de preferencias estructurada, no solo mediante más datos.
Escalabilidad: Proporciona una ruta escalable para mitigar alucinaciones sin necesidad de reentrenamiento costoso o defensas en tiempo de inferencia que no modifican los límites de decisión internos del modelo.
Confiabilidad: Al reducir la dependencia de priores lingüísticos y correlaciones espurias, MoD-DPO acerca a los agentes de IA a la capacidad de "ver y escuchar antes de pensar", un paso crucial hacia agentes multimodales autónomos y seguros.

En conclusión, MoD-DPO establece un nuevo estado del arte en la mitigación de alucinaciones cross-modales, ofreciendo un enfoque simple pero efectivo que prioriza la evidencia sensorial real sobre las suposiciones del lenguaje.