MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA superinteligente que consegue ver vídeos e ouvir sons ao mesmo tempo. É como se ele tivesse olhos e ouvidos de águia. O problema é que, às vezes, esse assistente é um pouco "alucinado".

Ele pode ver uma imagem de um cachorro e, mesmo que o vídeo esteja em silêncio, ele "ouve" o latido na sua cabeça porque, na internet, cachorros geralmente latem. Ou ele pode ouvir uma música triste e, mesmo que o vídeo mostre uma festa animada, ele descreve uma cena de luto. Isso acontece porque a IA confia demais no que ela "acha que deveria acontecer" (baseado no texto que ela leu antes) e ignora o que está realmente acontecendo na tela ou no som.

Os autores deste artigo, da Universidade do Sul da Califórnia, criaram uma solução chamada MoD-DPO. Vamos explicar como funciona usando uma analogia simples: O Treinamento de um Detetive.

O Problema: O Detetive Preguiçoso

Imagine que seu assistente é um detetive novato.

O Caso: Ele precisa responder perguntas sobre um vídeo.
O Erro: Quando o vídeo mostra uma piscina, mas o áudio é de um concerto de rock, o detetive preguiçoso ignora o vídeo e diz: "Ah, deve ser uma festa na piscina porque rock e piscina combinam!". Ele está usando "pistas falsas" e "achismos" em vez de olhar as evidências reais.

A Solução: O Treinamento MoD-DPO

Os pesquisadores criaram um método de treinamento especial para ensinar esse detetive a ser mais atento e menos preguiçoso. Eles usam três técnicas principais:

1. A Regra do "Sussurro Falso" (Invariância)

Imagine que você está testando o detetive. Você mostra a ele um vídeo de um gato, mas coloca um áudio de um carro passando (que não tem nada a ver com o gato).

O que o MoD-DPO faz: Ele diz ao detetive: "Se eu mudar o som para algo sem sentido, sua resposta sobre o gato não pode mudar".
A Analogia: É como se você estivesse ensinando o detetive a ignorar ruídos de fundo. Se o som for trocado por estática ou música aleatória, ele deve continuar dizendo "Vejo um gato", e não começar a falar de carros. Isso ensina a IA a não se distrair com informações irrelevantes.

2. A Regra do "Silêncio Inesperado" (Sensibilidade)

Agora, vamos fazer o oposto. Você mostra o vídeo do gato, mas apaga o som ou coloca um som de "miado" que não combina.

O que o MoD-DPO faz: Ele diz ao detetive: "Se eu mudar o som relevante ou tirar a informação importante, sua resposta tem que mudar drasticamente".
A Analogia: Se o vídeo mostra um cachorro latindo e você muda o áudio para um silêncio total, o detetive deve perceber a diferença e dizer: "Espera, agora não estou ouvindo nada!". Isso força a IA a prestar atenção no que é realmente importante para a pergunta.

3. O "Anti-Preconceito" (Debiasing)

Às vezes, o detetive é tão viciado em ler livros que, quando vê uma imagem, ele fecha os olhos e apenas recita o que está escrito no livro.

O que o MoD-DPO faz: Eles adicionam uma "penalidade" (uma espécie de bronca) se o detetive tentar responder usando apenas o texto, ignorando a imagem ou o som.
A Analogia: É como se o professor dissesse: "Se você responder sem olhar a foto, você perde pontos!". Isso obriga a IA a usar os olhos e os ouvidos, não apenas a memória do texto.

O Resultado: Um Detetive de Elite

Depois desse treinamento especial, o assistente de IA (chamado de "Omni LLM") se torna muito mais confiável:

Ele para de inventar sons que não existem.
Ele para de inventar imagens que não estão lá.
Ele entende melhor quando o som e a imagem não combinam.

Os testes mostraram que esse novo método (MoD-DPO) é muito melhor do que os métodos antigos. Ele consegue "desacoplar" (separar) o que é som do que é imagem, evitando que um interfira no outro de forma errada.

Resumo em uma frase

O MoD-DPO é como um treino de "atenção plena" para IAs multimodais, ensinando-as a confiar no que veem e ouvem agora, e não no que elas acham que deveriam ver ou ouvir baseado no que leram no passado.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MoD-DPO

1. O Problema: Alucinações Cross-Modais em Modelos Omni

Os Grandes Modelos de Linguagem Omni (Omni LLMs) integraram áudio, vídeo e texto, alcançando desempenho notável em tarefas de compreensão audiovisual. No entanto, eles permanecem altamente suscetíveis a alucinações cross-modais. Essas falhas ocorrem principalmente devido a dois fatores:

Correlações Espúrias Inter-modais: O modelo aprende associações incorretas entre modalidades (ex: inferir a presença de um objeto visual baseado apenas em um som, ou vice-versa, mesmo quando a evidência na outra modalidade é ausente).
Super-reliance em Priors Linguísticos: Devido ao pré-treinamento massivo em texto, os modelos tendem a ignorar as entradas de áudio e vídeo, gerando respostas baseadas apenas no que o texto "espera" que seja dito, em vez do que os dados multimodais realmente mostram.

Exemplos comuns incluem "ouvir" sons que não existem ao ver uma cena específica ou "ver" eventos visuais que não ocorrem ao ouvir um áudio.

2. Metodologia: MoD-DPO (Otimização de Preferência Desacoplada por Modalidade)

Os autores propõem o MoD-DPO, uma técnica de otimização de preferência que modifica o objetivo do Direct Preference Optimization (DPO) padrão para forçar o modelo a ser "fiel" à modalidade relevante e insensível às irrelevantes.

Componentes Principais:

Desacoplamento de Entradas de Modalidade:
O método introduz termos de regularização baseados em Divergência KL (Kullback-Leibler) no objetivo de treinamento. Para uma pergunta relacionada à modalidade visual ( $x_v$ ), o objetivo exige:
- Invariância: A distribuição de saída deve permanecer estável quando a modalidade irrelevante (áudio) é corrompida. Isso impede que o modelo mude sua resposta baseada em ruído ou informações irrelevantes do áudio.
- Sensibilidade: A distribuição de saída deve mudar significativamente (deslocamento de distribuição) quando a modalidade relevante (vídeo) é corrompida. Isso garante que o modelo dependa fortemente da evidência correta.
Penalidade de Desviés de Prior Linguístico (LPD - Language Prior Debiasing):
Para combater a super-reliance em texto, o método adiciona uma penalidade que reduz a probabilidade de respostas geradas apenas com base na entrada de texto (ignorando áudio/vídeo). Isso é feito penalizando a resposta escolhida se ela puder ser gerada com alta probabilidade apenas pelo modelo de linguagem puro.
Geração de Dados de Preferência:
O método utiliza um pipeline automatizado de três etapas para criar um conjunto de dados de preferência (18.1k amostras):
1. Desentrelaçamento: Gera legendas e tags separadas para áudio e vídeo.
2. Geração de QA: Cria pares de Pergunta-Resposta focados em presença de objetos/eventos ou legendagem.
3. Construção de Pares de Preferência:
  - Resposta Escolhida ( $y_w$ ): Baseada na modalidade relevante.
  - Resposta Rejeitada ( $y_l$ ): Baseada na modalidade irrelevante (ex: responder a uma pergunta sobre vídeo usando informações do áudio), criando "hard negatives" que forçam o modelo a distinguir as fontes de informação.

Função de Perda:
A função de perda final combina o DPO padrão com os termos de regularização de invariância/sensibilidade e a penalidade de prior linguístico, resultando em uma solução de forma fechada que otimiza a política para focar na evidência correta.

3. Contribuições Chave

Novo Framework de Otimização: Proposta do MoD-DPO, que desacopla explicitamente as vias de modalidades durante o treinamento, algo não feito por métodos anteriores de DPO multimodal.
Mecanismo de Desviés de Prior: Introdução da penalidade LPD para mitigar a dependência excessiva de priors linguísticos, forçando o modelo a "escutar" e "ver" antes de "pensar".
Conjunto de Dados Automatizado: Criação de um dataset de preferência de grande escala (18.1k amostras, 10.8k vídeos únicos) gerado automaticamente, focado em alucinações cross-modais.
Solução Eficiente: Derivação de uma solução de forma fechada para o objetivo MoD-DPO, permitindo treinamento eficiente sem a necessidade de um modelo de recompensa separado.

4. Resultados Experimentais

Os autores avaliaram o MoD-DPO (e sua versão aprimorada, MoD-DPO++) em benchmarks de alucinação cross-modal (AVHBench e Curse of Multi-Modalities - CMM) e benchmarks gerais (DailyOmni, MVBench, MMAU).

Desempenho Superior: O MoD-DPO++ superou consistentemente todas as linhas de base, incluindo DPO padrão, OmniDPO e modelos Omni LLMs de ponta (Qwen 2.5 Omni, MiniCPM-O).
- No AVHBench, houve ganhos de até 27% em precisão na tarefa de correspondência audiovisual em comparação com o modelo de referência.
- No CMM, o método demonstrou ganhos de 3-4% na precisão geral, com melhorias significativas na resistência a alucinações.
Ablação: Estudos mostraram que a combinação de Invariância, Sensibilidade e LPD é crucial. A remoção de qualquer componente degrada o desempenho, especialmente a LPD, que é vital para reduzir alucinações induzidas por priors linguísticos.
Análise de Atenção: O modelo treinado com MoD-DPO++ redistribuiu sua atenção, aumentando significativamente a atenção aos tokens de áudio e vídeo em detrimento de tokens puramente textuais.
Robustez: O modelo mostrou-se mais robusto a entradas adversariais (corrupção de modalidades irrelevantes) e sensível a corrupções na modalidade relevante.

5. Significado e Impacto

O trabalho demonstra que a otimização de preferência estruturada é um caminho escalável para construir modelos multimodais mais confiáveis. Ao invés de apenas treinar o modelo para "acertar", o MoD-DPO ensina o modelo a não errar baseando-se em correlações falsas ou preguiça cognitiva (priors de texto).

A importância do trabalho reside em:

Confiabilidade: Oferece um caminho para reduzir alucinações em sistemas de IA que operam no mundo real (onde áudio e vídeo podem ser desincronizados ou ambíguos).
Eficiência: Mostra que é possível melhorar a fundamentação (grounding) multimodal sem re-treinamento massivo do zero, mas sim através de um ajuste fino (fine-tuning) direcionado com dados sintéticos inteligentes.
Direção Futura: Estabelece que a "desacoplagem" de modalidades durante o processo de aprendizado de preferência é essencial para a próxima geração de agentes multimodais que devem ver e ouvir antes de responder.