INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

O artigo apresenta o INFACT, um novo benchmark diagnóstico com 9.800 instâncias de perguntas e respostas que avalia a confiabilidade e as alucinações de facticidade e fidelidade em Modelos de Linguagem Grandes para Vídeo (Video-LLMs) sob condições degradadas e intervenções temporais, revelando que a alta precisão em cenários limpos não garante robustez nessas situações adversas.

Junqi Yang, Yuecong Min, Jie Zhang, Shiguang Shan, Xilin Chen

Publicado 2026-03-13
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas um pouco "alucinado". Ele consegue descrever perfeitamente o que está vendo em um vídeo, mas às vezes ele inventa detalhes que não existem ou confunde fatos do mundo real com o que está na tela.

Esse é o problema dos Video-LLMs (Modelos de Linguagem Grandes para Vídeo). Eles estão ficando ótimos em entender vídeos, mas cometem dois tipos de erros graves:

  1. Traição à Verdade Visual (Faithfulness): O vídeo mostra um gato laranja, mas o modelo diz "é um cachorro preto". Ele não está prestando atenção no que realmente vê.
  2. Traição ao Conhecimento Real (Factuality): O vídeo mostra alguém fazendo um bolo, mas o modelo diz "isso é como se faz um foguete". Ele ignora o vídeo e usa informações erradas do "cérebro" dele.

O artigo que você enviou apresenta uma nova ferramenta chamada INFACT. Pense no INFACT como um "Exame de Saúde Mental" ou um "Simulador de Caos" para esses robôs.

Aqui está a explicação simples de como funciona, usando analogias do dia a dia:

1. O Grande Laboratório de Testes (O Benchmark)

Os criadores do INFACT não apenas mostraram vídeos normais para os robôs. Eles criaram um banco de dados gigante com quase 10.000 perguntas sobre vídeos reais e vídeos feitos por computador.

É como se eles tivessem montado uma gincana de detetives, onde os robôs precisam responder perguntas sobre:

  • O que está na tela? (Ex: "Quantas maçãs vermelhas aparecem?")
  • O que sabemos do mundo? (Ex: "Esse passo de receita de bolo faz sentido físico?")

2. Os Quatro Modos de "Tortura" (Modos de Avaliação)

Para ver se o robô é realmente inteligente ou apenas está "chutando" baseado em dicas fáceis, o INFACT coloca o robô em quatro situações diferentes:

  • Modo Base (O Dia de Sol): O vídeo está perfeito, sem ruído. É o teste padrão. Se o robô falha aqui, ele é burro.
  • Modo de Degradação Visual (O Dia de Chuva e Neblina): Eles pegam o vídeo e colocam "ruído", borrão ou compressão de imagem (como quando a internet cai e o vídeo fica pixelado).
    • A Pergunta: "O robô consegue ainda ver o gato laranja mesmo com a imagem tremendo?"
  • Modo de Corrupção de Evidência (O Mentiroso no Ouvido): Aqui é o mais interessante. Eles mostram o vídeo, mas adicionam legendas falsas ou textos mentirosos sobre o que está acontecendo.
    • A Analogia: Imagine que você está assistindo a um vídeo de alguém abrindo uma porta, mas o robô ouve uma legenda dizendo "Ele está fechando a porta".
    • A Pergunta: "O robô confia no que vê (a porta abrindo) ou no que lê (a mentira)?"
  • Modo de Intervenção Temporal (O Filme de Volta): Eles pegam um vídeo e embaralham os quadros (como um baralho) ou invertem o tempo (o filme passa de trás para frente).
    • A Analogia: Se o vídeo mostra "Primeiro você acorda, depois toma café, depois vai trabalhar", e eles invertem para "Trabalhar, Café, Acordar", a lógica quebra.
    • A Pergunta: "O robô percebeu que a ordem está errada ou ele continua dizendo a mesma coisa, como se estivesse no piloto automático?"

3. As Duas Regras de Ouro (As Métricas)

Para medir se o robô passou no teste, eles usam duas regras simples:

  • Taxa de Resistência (RR): Se o vídeo ficou ruim ou mentiroso, o robô manteve a resposta correta?
    • Analogia: Se você cobrir os olhos do robô com um lenço sujo, ele ainda consegue dizer que cor é a camisa? Se sim, ele é resistente.
  • Pontuação de Sensibilidade Temporal (TSS): Se o tempo do vídeo foi bagunçado, o robô mudou de ideia?
    • Analogia: Se você inverter o filme de um bolo sendo desmontado, o robô deve perceber que a lógica está errada. Se ele continuar dizendo "está tudo certo", ele tem "inércia temporal" (é teimoso e não percebe a mudança).

4. O Que Eles Descobriram? (Os Resultados)

Ao testar 14 robôs diferentes (incluindo os mais famosos da OpenAI e Google), eles descobriram coisas surpreendentes:

  1. Ser "Bom" não significa ser "Confiável": Um robô pode tirar nota 10 no teste normal (Modo Base), mas quando você coloca uma legenda mentirosa ou embaralha o vídeo, ele desaba e começa a alucinar.
  2. Mentiras são piores que Ruído: Os robôs tendem a confiar mais em textos falsos (legendas) do que em vídeos borrados. É como se eles acreditassem mais no que leem do que no que veem.
  3. O Problema do "Piloto Automático": Muitos robôs abertos (open-source) têm uma pontuação de sensibilidade temporal quase zero. Isso significa que, se você inverter o tempo do vídeo, eles continuam respondendo como se nada tivesse mudado. Eles não estão realmente "entendendo" a sequência de eventos; estão apenas adivinhando padrões.
  4. Física e Receitas são Difíceis: Os robôs são ruins em saber se uma ação faz sentido físico (ex: uma bola subindo em vez de cair) ou se uma receita de bolo está na ordem certa.

Conclusão

O INFACT é um aviso importante para o mundo da Inteligência Artificial: Não confie apenas na nota final. Um modelo pode parecer inteligente em um dia de sol, mas se você mudar um pouco as condições (ruído, mentiras, ordem do tempo), ele pode falhar feio.

Os criadores querem que os desenvolvedores parem de focar apenas em "quantas perguntas o robô acerta" e comecem a focar em "quão forte é o robô quando as coisas dão errado". É a diferença entre um aluno que decora a resposta e um detetive que realmente investiga a verdade.