MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Dit paper introduceert MoD-DPO, een efficiënt framework dat cross-modale hallucinaties in omni-taalmodellen vermindert door modality-decoupled voorkeuroptimalisatie te gebruiken om de afhankelijkheid van tekstuele priors te doorbreken en de perceptie van relevante audiovisuele modaliteiten te versterken.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme robot hebt die zowel kan zien als horen. Deze robot, een "Omni LLM", is getraind om films te bekijken en geluiden te analyseren. Maar er is een groot probleem: deze robot is soms een beetje een dromer.

Stel je voor dat je de robot een video laat zien van een rustige rivier, maar in de audio hoor je het geluid van een hond die blaft. Een mens zou zeggen: "Ik zie een rivier, maar ik hoor een hond." De robot daarentegen, door zijn "dromerige" kant, zou kunnen zeggen: "Ja, ik zie de hond die blaft in de rivier!"

De robot heeft een hallucinatie gekregen. Hij heeft het geluid (de hond) onterecht gekoppeld aan het beeld (de rivier), of hij heeft gewoon op zijn "taal-geheugen" vertrouwd in plaats van naar de feiten te kijken.

De auteurs van dit paper, Ashutosh Chaubey en zijn collega's, hebben een nieuwe manier bedacht om deze robot te trainen. Ze noemen het MoD-DPO. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De "Luie" Robot

Normaal gesproken is de robot te lui om goed te kijken of te luisteren. Hij vertrouwt te veel op wat hij al weet (zijn "taal-vooringenomenheid").

  • Vergelijking: Het is alsof je iemand vraagt: "Wat zie je op deze foto?" en die persoon zegt: "Ik zie een hond," omdat hij gisteren een hond zag, terwijl er op de foto alleen een kat staat. Hij kijkt niet echt; hij raadt op basis van zijn eigen gedachten.

2. De Oplossing: MoD-DPO (De "Scheidingstrainer")

De nieuwe methode, MoD-DPO, is als een strenge maar slimme trainer die de robot leert om audio en video echt van elkaar te scheiden. Ze gebruiken twee belangrijke regels:

Regel A: De "Ongevoelige Oren" (Invariantie)

Stel je voor dat je de robot een video laat zien van een kat, maar je vuilt de audio op met statisch ruis (zoals een slechte radio).

  • De oude robot: Zou denken: "Oh, dat ruisgeluid klinkt als een hond, dus er moet een hond in de video zitten!"
  • De nieuwe robot (MoD-DPO): De trainer zegt: "Hé, de audio is rot, maar de video is nog steeds een kat. Je antwoord moet niet veranderen!"
  • Vergelijking: Het is alsof je een kok leert diep te koken. Als je de lichten uitdoet (de audio verstoort), moet hij nog steeds weten dat hij een ei aan het bakken is, omdat hij de pan en het ei (de video) nog steeds ziet. Hij wordt ongevoelig voor de rommel in de audio.

Regel B: De "Gevoelige Oren" (Sensitiviteit)

Nu doe je het omgekeerde. Je laat een video zien van een hond, maar je vuilt de audio op met ruis.

  • De oude robot: Zou misschien nog steeds denken: "Ik hoor ruis, dus ik denk dat er geen hond is," of hij zou raden op basis van tekst.
  • De nieuwe robot (MoD-DPO): De trainer zegt: "De audio is rot, maar de video toont duidelijk een hond! Je moet wel reageren op de visuele informatie en zeggen: 'Ik zie een hond'."
  • Vergelijking: Het is alsof je een detective bent. Als de getuige (de audio) niet kan spreken, moet je je ogen (de video) gebruiken om de waarheid te vinden. De robot leert gevoelig te zijn voor wat er echt is, zelfs als één zintuig faalt.

3. De "Taal-Debiasing": Het Stoppen van het Gissen

Soms is de robot zo gewend aan taal dat hij gewoon een antwoord bedenkt zonder te kijken.

  • Vergelijking: Het is als een student die een proefwerk maakt. Als hij de vraag niet begrijpt, schrijft hij gewoon iets wat "slim" klinkt, in plaats van het antwoord te zoeken.
  • De oplossing: De trainer straft de robot als hij een antwoord geeft dat alleen op tekst gebaseerd is, terwijl er beeld of geluid beschikbaar was. Hij leert: "Gebruik je ogen en oren, niet alleen je woordenboek!"

Hoe werkt het in de praktijk?

De onderzoekers hebben een enorme hoeveelheid oefenmateriaal gemaakt. Ze hebben duizenden video's genomen en de audio en video bewust verward of verstoord.

  • Ze gaven de robot een vraag over de video, maar gaven hem de verkeerde audio als "verkeerd antwoord".
  • Ze gaven de robot een vraag over de audio, maar gaven hem de verkeerde video als "verkeerd antwoord".
  • Door deze "verkeerde antwoorden" te straffen en de "juiste antwoorden" (die gebaseerd zijn op de juiste zintuig) te belonen, leert de robot langzaam maar zeker om niet meer te dromen.

Het Resultaat

Na deze training is de robot veel betrouwbaarder.

  • Hij ziet wat er echt is.
  • Hij hoort wat er echt is.
  • Hij mengt de twee niet meer door elkaar, tenzij het logisch is.

Kort samengevat:
MoD-DPO is als het geven van een nieuwe bril aan een dromerige robot. Het zorgt ervoor dat hij stopt met het invullen van gaten in zijn kennis met fantasie, en in plaats daarvan echt kijkt en luistert naar wat er voor hem ligt. Hierdoor wordt hij een veel betere assistent voor het begrijpen van de wereld om ons heen.