INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat Video-LLMs (Video-Grote Taalmodellen) als slimme, maar soms dromerige tolken zijn. Je laat ze een video zien en vraagt: "Wat gebeurt er hier?" of "Is dit logisch?". Vaak geven ze het perfecte antwoord, maar soms beginnen ze te fantaseren. Ze zeggen dat een man een vliegtuig bestuurt, terwijl hij in de video gewoon een auto rijdt, of ze beweren dat een recept werkt, terwijl de stap-voor-stap instructies in de video totaal onzin zijn. Dit noemen we hallucinaties.

Deze paper introduceert een nieuwe test, genaamd INFACT, om te zien hoe goed deze "tolken" echt zijn, en vooral: hoe ze reageren als we ze een beetje in de war sturen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zuivere" Test is niet genoeg

Tot nu toe hebben we de modellen getest in een stille, schone kamer (de "Base" modus). Daar presteren ze geweldig. Maar in het echte leven is het niet altijd stil en schoon.

De vergelijking: Stel je voor dat je een student test in een stil lokaal. Hij haalt een 10. Maar als je hem in een drukke kroeg zet met flitsende lichten en iemand die tegen hem schreeuwt, valt hij misschien door de mand. INFACT test niet alleen of de student slim is, maar of hij niet van zijn stuk raakt als de omstandigheden slecht worden.

2. Wat is INFACT? Een "Diagnose-Apparaat"

INFACT is een enorme verzameling van bijna 10.000 vragen over video's. Het is verdeeld in twee hoofdsoorten "waanzin":

Getrouwheid (Faithfulness): "Kijk je wel goed naar de video?"
- Voorbeeld: De video toont een blauwe auto, maar het model zegt: "Het is een rode fiets."
- Analogie: Dit is alsof je een schilderij bekijkt en iemand zegt: "Dat is een foto van een hond." Het model negeert wat het echt ziet.
Feitelijkheid (Factuality): "Weet je ook hoe de wereld werkt?"
- Voorbeeld: De video toont iemand die een auto-reparatie doet, maar de volgorde van de stappen is onlogisch (eerst de motor eruit, dan pas de wielen). Het model zegt: "Ja, dat klopt."
- Analogie: Dit is alsof iemand een recept voor een taart leest en zegt: "Ja, dat is logisch," terwijl je eerst de eieren moet bakken voordat je ze in het mengsel doet. Het model kent de regels van de echte wereld niet.

3. De Vier Manieren om ze te "Prikken" (De Test)

INFACT test de modellen op vier manieren, alsof je een auto op de proef stelt:

De Rustige Test (Base): De video is perfect, de vraag is duidelijk. Dit is de basisprestatie.
De Ruisende Camera (Visuele Degradatie): We maken de video wazig, voegen ruis toe of maken hem wazig alsof de camera trilt.
- Doel: Zie je nog steeds wat er gebeurt, of raak je in paniek en verzinnen je dingen?
De Leugenaar in de Hoek (Bewijsvervalsing): We voegen ondertitels toe die leugens vertellen. Bijvoorbeeld: de video toont iemand die een deur opent, maar de ondertitel zegt: "Hij sluit de deur."
- Doel: Luistert het model naar wat het ziet (de video), of naar wat er geschreven staat (de tekst)? Veel modellen luisteren te veel naar de tekst en vergeten hun ogen te gebruiken.
De Tijdreis (Temporale Interventie): We draaien de video op zijn kop of wisselen de beelden door elkaar. Een dans die eerst "links-rechts" was, wordt nu "rechts-links".
- Doel: Begrijpt het model dat tijd belangrijk is? Als het model na het draaien nog steeds zegt: "Ja, dat was een logische dans," dan is het tijd-ongevoelig. Het kijkt niet naar de volgorde, maar raadt alleen maar.

4. Wat hebben ze ontdekt? (De Resultaten)

De onderzoekers hebben 14 verschillende modellen getest. Hier zijn de belangrijkste bevindingen, vertaald naar alledaags Nederlands:

Slim zijn in de klas betekent niet slim zijn in de storm: Modellen die een 10 haalden in de "Rustige Test", vielen vaak door de mand toen de video wazig was of de ondertitels liegen.
De "Tijds-Verlamming": Dit is de meest verrassende ontdekking. Veel modellen (vooral de open-source versies) hebben een tijdsverlamming. Als je de volgorde van de video verwisselt, zeggen ze nog steeds hetzelfde antwoord alsof er niets gebeurd is.
- Analogie: Het is alsof je een film achterstevoor afspeelt en de kijker zegt: "Ja, dat verhaal klopt nog steeds." Ze kijken niet naar de beweging, maar naar statische beelden. Ze missen het gevoel voor tijd.
Tekst is een valstrik: Modellen zijn erg gevoelig voor leugenachtige ondertitels. Als de tekst zegt "De auto is rood", zelfs als de auto blauw is, geloven ze de tekst sneller dan hun eigen ogen.

5. Waarom is dit belangrijk?

Voor nu zijn deze modellen geweldig voor het maken van grappige filmpjes of het samenvatten van nieuws. Maar als je ze wilt gebruiken voor veiligheid (bijvoorbeeld: een robot die een operatie doet, of een auto die zelfstandig rijdt), mag je geen hallucinaties hebben.

INFACT is als een medische scan voor deze AI's. Het laat zien waar ze "ziek" zijn:

Ze zijn soms te lui om goed naar de video te kijken (ze vertrouwen te veel op tekst).
Ze begrijpen niet hoe tijd werkt (ze vergeten dat een gebeurtenis eerst moet gebeuren voordat de volgende komt).

Kortom: INFACT zegt ons: "Hé, deze modellen zijn slim, maar ze zijn nog niet betrouwbaar genoeg om in het echte, rommelige leven te werken zonder dat ze gaan fantaseren."

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

1. Het Probleem: De "Zuivere" Test is niet genoeg

2. Wat is INFACT? Een "Diagnose-Apparaat"

3. De Vier Manieren om ze te "Prikken" (De Test)

4. Wat hebben ze ontdekt? (De Resultaten)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: INFACT Benchmark

Taxonomie

Evaluatiemodi (Inductie van Hallucinaties)

Metrieken

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Conclusie

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

1. Het Probleem: De "Zuivere" Test is niet genoeg

2. Wat is INFACT? Een "Diagnose-Apparaat"

3. De Vier Manieren om ze te "Prikken" (De Test)

4. Wat hebben ze ontdekt? (De Resultaten)

5. Waarom is dit belangrijk?

1. Het Probleem

2. Methodologie: INFACT Benchmark

Taxonomie

Evaluatiemodi (Inductie van Hallucinaties)

Metrieken

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Conclusie

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction