OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Wentao Wang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

Publicado 2026-03-06

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a assistir TV com você. Até agora, esses robôs (chamados de Modelos de Linguagem Multimodais) eram ótimos em olhar para uma foto e descrevê-la, ou em ler um livro. Mas quando você coloca um vídeo na frente deles, que tem movimento, cenas mudando e, o mais importante, som, eles começam a se confundir.

É aqui que entra o OmniVideoBench, o novo "exame de vestibular" criado por uma equipe de pesquisadores para testar se esses robôs realmente entendem o que estão vendo e ouvindo ao mesmo tempo.

Aqui está a explicação do papel, traduzida para o português do dia a dia:

1. O Problema: O Robô que Só Vê ou Só Ouve

Até hoje, os testes para esses robôs eram como pedir para alguém descrever uma foto estática. Mas a vida real é dinâmica!

O erro dos testes antigos: Eles focavam muito na imagem e tratavam o som como um "extra" opcional, ou usavam vídeos muito curtos (como um GIF).
A realidade: Para entender um vídeo de 10 minutos, você precisa conectar o que você vê (alguém correndo) com o que você ouve (o som de passos pesados e ofegantes) e o que é dito (a pessoa dizendo "estou cansado"). Se o robô ignora o som, ele perde metade da história.

2. A Solução: O "OmniVideoBench" (O Grande Exame)

Os pesquisadores criaram um banco de dados gigante e muito rigoroso para testar essa habilidade de "ouvir e ver juntos".

A Coleção de Vídeos: Eles pegaram 628 vídeos reais da internet (YouTube e Bilibili), variando de alguns segundos a 30 minutos. São vídeos de notícias, esportes, vlogs, documentários e até gravações em primeira pessoa (como se fosse um óculos de realidade virtual).
As Perguntas: Eles criaram 1.000 perguntas sobre esses vídeos. Mas não são perguntas bobas como "qual a cor da camisa?". São perguntas que exigem raciocínio, como:
- Causa e efeito: "Se o Steven não impedisse o jovem, o que ele faria?"
- Localização: "Onde está o pôster 'Ninguém luta sozinho' em relação à pessoa?"
- Sentimento: "O que a música e a expressão facial dizem sobre o clima da cena?"

O Diferencial: Cada pergunta vem com um "rastro de pensamento" anotado à mão. É como se um professor humano tivesse escrito: "Primeiro, olhe para a boca da pessoa (visual). Depois, ouça o que ela diz (áudio). Junte as duas coisas para concluir que ela está mentindo." Isso ajuda a treinar os robôs a pensarem, não apenas a chutarem.

3. O Resultado: Os Robôs Ainda Estão na Pré-Escola

Quando eles colocaram os modelos mais famosos do mundo (como o Gemini da Google e o Qwen da Alibaba) para fazer esse teste, o resultado foi um choque:

Nenhum robô passou na média: A pontuação máxima de qualquer modelo foi de 58,9% (para passar, precisariam de 60%). Isso significa que, na maioria das vezes, eles estão errando.
Robôs de Código Aberto vs. Fechados: Os modelos "fechados" (como o Gemini, que a Google não deixa ninguém ver o código) foram melhores, mas ainda assim falharam. Os modelos "abertos" (que qualquer um pode baixar) tiveram desempenho quase igual a um chute aleatório.
O Calcanhar de Aquiles (Música): Os robôs são péssimos entendendo música. Se o vídeo tem uma trilha sonora emocional, eles não conseguem conectar a música com o que está acontecendo na tela. É como se eles não sentissem a emoção da cena.
Vídeos Longos: Quanto mais longo o vídeo, pior eles se saem. Parece que eles esquecem o que aconteceu no início quando o vídeo chega no meio.

4. A Analogia Final: O Aluno que Decora, mas não Entende

Imagine que você está testando um aluno para ver se ele sabe dirigir.

Os testes antigos mostravam uma foto de um carro parado e perguntavam: "Onde está o volante?". O aluno acertava porque decorou a foto.
O OmniVideoBench coloca o aluno no carro, com o motor ligado, chovendo lá fora e a rádio tocando uma música triste. O teste pergunta: "O que você deve fazer agora?".
O resultado: A maioria dos robôs (alunos) ainda está tentando decorar onde fica o volante, em vez de olhar pela janela, ouvir a chuva e sentir a emoção da música para tomar uma decisão inteligente.

Conclusão

O OmniVideoBench é um aviso para a comunidade de Inteligência Artificial: "Ei, vocês estão bons em ver e bons em ouvir, mas ainda são péssimos em juntar as duas coisas para entender a história completa."

A equipe quer que esse teste ajude a criar robôs que, no futuro, consigam assistir a um filme, entender a trama, a emoção e os detalhes, exatamente como um humano faria. Até lá, eles ainda têm muito o que aprender!

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. O Problema: O Robô que Só Vê ou Só Ouve

2. A Solução: O "OmniVideoBench" (O Grande Exame)

3. O Resultado: Os Robôs Ainda Estão na Pré-Escola

4. A Analogia Final: O Aluno que Decora, mas não Entende

Conclusão

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Principais

5. Significância

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1. O Problema: O Robô que Só Vê ou Só Ouve

2. A Solução: O "OmniVideoBench" (O Grande Exame)

3. O Resultado: Os Robôs Ainda Estão na Pré-Escola

4. A Analogia Final: O Aluno que Decora, mas não Entende

Conclusão

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Principais

5. Significância

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation