MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die zowel kan zien als horen. Deze robot, een "Omni LLM", is getraind om films te bekijken en geluiden te analyseren. Maar er is een groot probleem: deze robot is soms een beetje een dromer.

Stel je voor dat je de robot een video laat zien van een rustige rivier, maar in de audio hoor je het geluid van een hond die blaft. Een mens zou zeggen: "Ik zie een rivier, maar ik hoor een hond." De robot daarentegen, door zijn "dromerige" kant, zou kunnen zeggen: "Ja, ik zie de hond die blaft in de rivier!"

De robot heeft een hallucinatie gekregen. Hij heeft het geluid (de hond) onterecht gekoppeld aan het beeld (de rivier), of hij heeft gewoon op zijn "taal-geheugen" vertrouwd in plaats van naar de feiten te kijken.

De auteurs van dit paper, Ashutosh Chaubey en zijn collega's, hebben een nieuwe manier bedacht om deze robot te trainen. Ze noemen het MoD-DPO. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Luie" Robot

Normaal gesproken is de robot te lui om goed te kijken of te luisteren. Hij vertrouwt te veel op wat hij al weet (zijn "taal-vooringenomenheid").

Vergelijking: Het is alsof je iemand vraagt: "Wat zie je op deze foto?" en die persoon zegt: "Ik zie een hond," omdat hij gisteren een hond zag, terwijl er op de foto alleen een kat staat. Hij kijkt niet echt; hij raadt op basis van zijn eigen gedachten.

2. De Oplossing: MoD-DPO (De "Scheidingstrainer")

De nieuwe methode, MoD-DPO, is als een strenge maar slimme trainer die de robot leert om audio en video echt van elkaar te scheiden. Ze gebruiken twee belangrijke regels:

Regel A: De "Ongevoelige Oren" (Invariantie)

Stel je voor dat je de robot een video laat zien van een kat, maar je vuilt de audio op met statisch ruis (zoals een slechte radio).

De oude robot: Zou denken: "Oh, dat ruisgeluid klinkt als een hond, dus er moet een hond in de video zitten!"
De nieuwe robot (MoD-DPO): De trainer zegt: "Hé, de audio is rot, maar de video is nog steeds een kat. Je antwoord moet niet veranderen!"
Vergelijking: Het is alsof je een kok leert diep te koken. Als je de lichten uitdoet (de audio verstoort), moet hij nog steeds weten dat hij een ei aan het bakken is, omdat hij de pan en het ei (de video) nog steeds ziet. Hij wordt ongevoelig voor de rommel in de audio.

Regel B: De "Gevoelige Oren" (Sensitiviteit)

Nu doe je het omgekeerde. Je laat een video zien van een hond, maar je vuilt de audio op met ruis.

De oude robot: Zou misschien nog steeds denken: "Ik hoor ruis, dus ik denk dat er geen hond is," of hij zou raden op basis van tekst.
De nieuwe robot (MoD-DPO): De trainer zegt: "De audio is rot, maar de video toont duidelijk een hond! Je moet wel reageren op de visuele informatie en zeggen: 'Ik zie een hond'."
Vergelijking: Het is alsof je een detective bent. Als de getuige (de audio) niet kan spreken, moet je je ogen (de video) gebruiken om de waarheid te vinden. De robot leert gevoelig te zijn voor wat er echt is, zelfs als één zintuig faalt.

3. De "Taal-Debiasing": Het Stoppen van het Gissen

Soms is de robot zo gewend aan taal dat hij gewoon een antwoord bedenkt zonder te kijken.

Vergelijking: Het is als een student die een proefwerk maakt. Als hij de vraag niet begrijpt, schrijft hij gewoon iets wat "slim" klinkt, in plaats van het antwoord te zoeken.
De oplossing: De trainer straft de robot als hij een antwoord geeft dat alleen op tekst gebaseerd is, terwijl er beeld of geluid beschikbaar was. Hij leert: "Gebruik je ogen en oren, niet alleen je woordenboek!"

Hoe werkt het in de praktijk?

De onderzoekers hebben een enorme hoeveelheid oefenmateriaal gemaakt. Ze hebben duizenden video's genomen en de audio en video bewust verward of verstoord.

Ze gaven de robot een vraag over de video, maar gaven hem de verkeerde audio als "verkeerd antwoord".
Ze gaven de robot een vraag over de audio, maar gaven hem de verkeerde video als "verkeerd antwoord".
Door deze "verkeerde antwoorden" te straffen en de "juiste antwoorden" (die gebaseerd zijn op de juiste zintuig) te belonen, leert de robot langzaam maar zeker om niet meer te dromen.

Het Resultaat

Na deze training is de robot veel betrouwbaarder.

Hij ziet wat er echt is.
Hij hoort wat er echt is.
Hij mengt de twee niet meer door elkaar, tenzij het logisch is.

Kort samengevat:
MoD-DPO is als het geven van een nieuwe bril aan een dromerige robot. Het zorgt ervoor dat hij stopt met het invullen van gaten in zijn kennis met fantasie, en in plaats daarvan echt kijkt en luistert naar wat er voor hem ligt. Hierdoor wordt hij een veel betere assistent voor het begrijpen van de wereld om ons heen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Omni-modal Large Language Models (Omni LLMs) hebben onlangs sterke prestaties geleverd in taken die audio, video en tekst combineren. Echter, deze modellen zijn nog steeds zeer vatbaar voor cross-modale hallucinaties. Dit betekent dat het model informatie uit de ene modality (bijvoorbeeld audio) onterecht toepast op de andere (bijvoorbeeld video), of vice versa.

Deze hallucinaties ontstaan voornamelijk door twee factoren:

Spuriuze inter-modale correlaties: Het model leert tijdens het trainen onterechte verbanden tussen audio en video (bijvoorbeeld: als er een hond in de video is, "hoort" het model automatisch blaffen, zelfs als er geen geluid is).
Over-reliance op taalkundige priors: Omdat de achterliggende LLM's zijn getraind op enorme hoeveelheden tekst, neigt het model ertoe om antwoorden te genereren op basis van tekstuele aannames in plaats van de daadwerkelijke audiovisuele input.

Bestaande oplossingen, zoals Direct Preference Optimization (DPO) of decoding-time verdedigingen, lossen dit niet volledig op omdat ze de paden van de verschillende modaliteiten niet expliciet van elkaar scheiden tijdens de optimalisatie of geen expliciete straffen toepassen op tekst-only shortcuts.

Methodologie: MoD-DPO

De auteurs stellen MoD-DPO (Modality-Decoupled Direct Preference Optimization) voor, een framework dat de standaard DPO-objectief aanpast om de afhankelijkheid tussen modaliteiten te doorbreken. De methode bestaat uit drie kerncomponenten:

1. Modality Decoupling (Modale Ontkoppeling)

Het doel is om het model te dwingen om invariant te zijn voor corruptie in irrelevante modaliteiten en sensitief te zijn voor corruptie in relevante modaliteiten. Dit wordt bereikt door twee reguleringstermen toe te voegen aan de DPO-loss:

Invariantie (Irrelevante Modality): Als de prompt-irrelevante modality (bijv. audio bij een visuele vraag) wordt verstoord (gecorrumpeerd), moet de outputverdeling van het model stabiel blijven. Dit voorkomt dat het model beïnvloed wordt door ruis in de verkeerde modality.
Sensitiviteit (Relevante Modality): Als de prompt-relevante modality (bijv. video bij een visuele vraag) wordt verstoord, moet de outputverdeling significant verschuiven. Dit zorgt ervoor dat het model echt kijkt naar de relevante input.

Dit wordt geformaliseerd door extra KL-divergentie-termen in de loss-functie:
$L_{MoD} = L_{DPO} - \beta_{inv} D_{KL}(\pi_\theta || \pi'_\theta) + \beta_{sens} D_{KL}(\pi_\theta || \pi'_\theta)$
Waarbij $\pi'_\theta$ verwijst naar het model dat train op verstoord (gecorrumpeerd) input.

2. Language-Prior Debiasing (LPD)

Om de overmatige afhankelijkheid van tekstuele priors te verminderen, wordt een strafterm toegevoegd aan de beloning (reward). Deze term straft het model af als het een correct antwoord genereert op basis van alleen de tekstinput, zonder de audiovisuele input te gebruiken.

De straal is: $r_{LPD} = -\log \pi_{text}(y | x_v)$ .
Dit zorgt ervoor dat het model gedwongen wordt om de audiovisuele input te raadplegen in plaats van te vertrouwen op zijn interne taalkennis.

3. Data Generatie Pipeline

Om dit te trainen, hebben de auteurs een nieuw dataset gegenereerd met 18.112 voorkeursvoorbeelden (preference pairs) over 10.854 unieke video's. Het proces verloopt in drie fasen:

Ontkoppeling: Audio en video worden gescheiden en apart geannoteerd (met GPT-4o voor video en AudioFlamingo 3 voor audio).
QA Generatie: Vragen worden gegenereerd die specifiek gericht zijn op audio of video (bijv. "Is het water hoorbaar?" vs. "Is de hand zichtbaar?").
Hard Negatives: In plaats van willekeurige afwijzende antwoorden, worden "hard negatives" gegenereerd. Bij een visuele vraag wordt het afwijzende antwoord gebaseerd op de audio-informatie (en vice versa). Dit dwingt het model om te leren dat informatie uit de verkeerde modality onjuist is.

Kernbijdragen

MoD-DPO Framework: Een nieuwe voorkeuroptimalisatietechniek die expliciet modaliteiten ontkoppelt door invariantie en sensitiviteit af te dwingen.
Language-Prior Debiasing: Een innovatieve straalterm die de over-reliance op tekstuele priors in omni-LLM's direct aanpakt.
Grootschalige Dataset: Een automatisch gegenereerde dataset van 18k+ voorkeursvoorbeelden die specifiek is ontworpen om cross-modale hallucinaties te bestrijden.
Theoretische Afleiding: De auteurs leiden een gesloten vorm oplossing af voor hun aangepaste DPO-objectief, wat de optimalisatie efficiënt maakt.

Resultaten

De methode is getest op twee belangrijke benchmarks voor cross-modale hallucinaties: AVHBench en Curse of Multi-Modalities (CMM).

Prestatieverbetering: MoD-DPO++ (de versie met LPD) presteert consequent beter dan bestaande baselines zoals standaard DPO, OmniDPO en andere state-of-the-art omni-LLM's (zoals Qwen 2.5 Omni en MiniCPM-O).
- Op AVHBench wordt een verbetering van tot 27% in nauwkeurigheid gezien ten opzichte van het referentiemodel op de taak van audiovisuele matching.
- Op CMM wordt een algehele prestatieverbetering van 3-4% behaald.
Ablatie Studies:
- Het toevoegen van LPD leidt tot een significante stijging in "hallucination resistance" (weerstand tegen hallucinaties), wat aantoont dat het effectief is in het verminderen van tekst-gebaseerde hallucinaties.
- Het gebruik van mismatched contexten (audio en video uit verschillende bronbestanden) tijdens het trainen bleek cruciaal voor het doorbreken van spuriuze correlaties.
Robuustheid: Analyse van de log-likelihood verschuivingen toont aan dat MoD-DPO++ inderdaad invariant is voor corruptie in irrelevante modaliteiten en sensitief voor corruptie in relevante modaliteiten.
Attentieherverdeling: Het model besteedt na training significant meer aandacht (attention) aan audiovisuele tokens, wat aangeeft dat het minder afhankelijk is van tekst.

Betekenis en Impact

Dit werk is significant omdat het een schaalbare en effectieve route biedt naar het bouwen van meer betrouwbare en veerkrachtige multimodale foundation modellen. Door de modaliteiten expliciet te ontkoppelen tijdens de voorkeuroptimalisatie, lost MoD-DPO een fundamenteel probleem op in de huidige generatie omni-LLM's: de neiging om te "gokken" op basis van tekstuele aannames of valse correlaties.

De methode demonstreert dat gestructureerde voorkeuroptimalisatie (in plaats van alleen decoding-time trucs) essentieel is om modellen te laten "grounderen" in de juiste bewijsvoering. Dit is een belangrijke stap richting agents die echt kunnen zien en horen voordat ze denken en reageren, wat cruciaal is voor toekomstige toepassingen in robotics, assistentie en interactieve systemen.