OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme mudo antigo. Você consegue ver os atores se movendo, mas não ouve a música dramática de fundo ou o som dos passos que indicam que alguém está se aproximando. Você pode tentar adivinhar o que está acontecendo, mas sua compreensão da história estará incompleta.

Agora, imagine que os computadores (especificamente as Inteligências Artificiais) têm o mesmo problema. Eles são ótimos em "ver" vídeos, mas quando tentamos dar a eles "ouvidos" também, eles muitas vezes ficam confusos. É como se, ao adicionar o som, eles esquecessem como usar a visão corretamente.

O artigo "OmniVideo-R1" apresenta uma solução inteligente para ensinar esses computadores a pensar como nós: usando visão e audição juntas de forma harmoniosa.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Cérebro" Confuso

Os modelos de IA atuais são como estudantes que estudaram muito para uma prova de matemática (vídeo), mas quando o professor adiciona uma prova de música (áudio) na mesma sala, o aluno começa a se distrair e erra até a matemática.

A descoberta: Os pesquisadores notaram que, ao adicionar o áudio, a IA ficava pior em entender o vídeo. Ela ignorava pistas importantes ou se confundia.

2. A Solução: O Treinamento "OmniVideo-R1"

Para consertar isso, os autores criaram um novo método de treinamento chamado OmniVideo-R1. Eles não apenas deram mais dados para a IA; eles mudaram como a IA aprende a pensar. Eles usaram duas estratégias principais:

Estratégia 1: O Detetive que Aponta o Dedo (Ancoragem Intensiva)

Imagine que você está assistindo a um vídeo e alguém pergunta: "O que a pessoa fez quando o cachorro latiu?"
Um modelo comum pode apenas "adivinhar" a resposta olhando para a tela inteira.
O OmniVideo-R1, no entanto, é treinado para agir como um detetive. Antes de responder, ele é obrigado a:

Apontar o dedo: Dizer exatamente quando no vídeo o cachorro latiu (ex: "entre 00:10 e 00:15").
Descrever: Explicar o que viu nesse momento específico.
Pensar: Usar essa informação para formar a resposta final.

A mágica: Como é caro e difícil pedir para humanos fazerem isso para milhares de vídeos, a IA faz isso sozinha (aprendizado auto-supervisionado). Ela tenta adivinhar os momentos importantes e depois verifica se sua descrição bate com o que aconteceu. É como um aluno que cria seus próprios resumos e depois os compara com o livro para ver se acertou.

Estratégia 2: O Maestro da Orquestra (Fusão Atenta às Modalidades)

Agora, imagine uma orquestra. Se o violinista (vídeo) toca muito alto, o flautista (áudio) é abafado. Se o flautista toca sozinho, falta a harmonia.
O modelo anterior tendia a ignorar o "flautista" (o som).
O OmniVideo-R1 usa uma técnica de "contraste":

Ele é testado de três formas: apenas com o vídeo, apenas com o áudio, e com os dois juntos.
A regra é simples: A resposta com os dois juntos deve ser sempre melhor do que qualquer um sozinho.
Se a IA tentar responder apenas olhando o vídeo e ignorar o som, ela recebe uma "punição" (recompensa menor). Isso força o cérebro da IA a entender que o som e a imagem são parceiros inseparáveis, como o cheiro e a aparência de um bolo: você precisa dos dois para saber se está gostoso.

3. O Resultado: Um "Super-Humano" Digital

Depois desse treinamento de duas etapas (primeiro aprender a apontar os momentos certos, depois aprender a misturar som e imagem perfeitamente), o modelo se transformou:

Ele não perde a visão: Ao contrário de outros modelos que pioram ao adicionar som, este ficou ainda melhor em entender vídeos, mesmo sem som.
Ele entende o contexto: Ele consegue dizer: "O homem parece feliz (visual), mas o som de sirene ao fundo sugere que ele está correndo para um acidente (auditivo), então ele não está apenas feliz, está preocupado."
Vitória nos testes: Nos testes de comparação, o OmniVideo-R1 bateu modelos gigantes e caros (como o Gemini e outros da série Qwen), provando que a qualidade do "treinamento de raciocínio" é mais importante do que apenas ter um cérebro gigante.

Resumo em uma frase

O OmniVideo-R1 é como ensinar uma IA a não apenas "ver" e "ouvir", mas a se tornar um detetive musical que sabe exatamente qual momento do filme e qual som combinam para contar a história verdadeira, sem se perder no meio do caminho.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: OmniVideo-R1

1. O Problema

Os modelos de linguagem multimodal (MLLMs) atuais, especialmente os modelos "omnimodais" que processam áudio e vídeo simultaneamente, enfrentam desafios significativos na compreensão e raciocínio integrados dessas modalidades. O artigo identifica um paradoxo fundamental: a adição da modalidade de áudio, em vez de melhorar a compreensão, frequentemente degrada o desempenho de raciocínio visual já estabelecido do modelo.

Viés de Modalidade: Modelos pré-treinados (como a família Qwen3-Omni) tendem a sofrer um viés natural devido a compensações (trade-offs) durante o pré-treinamento. Por exemplo, a variante omnimodal do Qwen3-30B-A3B teve desempenho inferior à sua variante apenas visual (VL) em benchmarks como MMStar e MathVista_mini.
Falha na Fusão Sinérgica: Os métodos de pós-treinamento existentes (como Supervised Fine-Tuning - SFT ou Aprendizado por Reforço padrão - RL) não treinam explicitamente o comportamento de raciocínio misto. Eles não forçam o modelo a localizar e compor evidências entre áudio e vídeo. Consequentemente, os modelos podem ignorar pistas decisivas (seja de áudio ou vídeo) e ainda produzir a resposta correta explorando vieses do conjunto de dados ou atalhos unimodais.
Custo de Anotação: A anotação humana de "quadros-chave" ou segmentos de áudio relevantes para uma consulta específica é complexa e cara, dificultando o treinamento supervisionado tradicional.

2. Metodologia: OmniVideo-R1

O OmniVideo-R1 é o primeiro framework de pós-treinamento baseado em Reinforcement Learning (RL) projetado especificamente para melhorar o raciocínio multimodal misto. Ele opera em duas etapas principais, utilizando o algoritmo GSPO (Group Sequence Policy Optimization) para otimizar o processo de raciocínio inteiro sem depender de anotações de nível de processo (process-level annotations).

Estratégia Central: O modelo é ensinado a "pensar com pistas omnimodais" (think with omnimodal cues), localizando e fundamentando evidências antes de gerar a resposta final.

Etapa 1: Grounding Intensivo por Consulta (Query-intensive Grounding - QI)
- Objetivo: Ensinar o modelo a identificar e localizar automaticamente os segmentos de áudio e vídeo relevantes para a consulta do usuário.
- Abordagem: Utiliza um esquema de aprendizado auto-supervisionado. Em vez de anotações humanas densas, o modelo gera pares de "tempo-captão" (time-caption) dentro do seu raciocínio.
- Mecanismo de Recompensa:
  - Consistência: Avalia se a descrição textual gerada para um segmento de tempo específico corresponde ao conteúdo real do áudio/vídeo nesse intervalo.
  - Completude: Garante que a união de todos os segmentos fundamentados cubra todas as pistas necessárias para responder à pergunta, evitando redundâncias.
  - Formato: Penaliza respostas que não seguem o template estruturado <time>...</time><caption>...</caption>.
Etapa 2: Fusão Atenta à Modalidade (Modality-attentive Fusion - MA)
- Objetivo: Forçar o modelo a integrar sinergicamente áudio e vídeo, garantindo que a representação combinada seja superior às partes individuais.
- Abordagem: Utiliza Aprendizado Contrastivo.
- Mecanismo de Recompensa: O modelo executa três "rollouts" (tentativas) para a mesma entrada: (1) entrada completa (áudio + vídeo), (2) apenas vídeo, (3) apenas áudio.
- Recompensa de Atenção ( $r_{attn}$ ): O modelo recebe uma recompensa positiva apenas se a pontuação da entrada completa for superior ou igual às entradas unimodais. Isso incentiva o modelo a descobrir relações sinérgicas entre eventos visuais e sonoros, em vez de depender de apenas uma modalidade.

3. Preparação de Dados

Coleta e Filtragem: Os dados brutos foram coletados de LLaVA-Video e Video-Vista.
Pipeline de Refinamento: Um pipeline de três estágios (avaliação de qualidade, filtragem heurística e balanceamento categórico) foi aplicado usando modelos como Gemini-2.5-Pro e Qwen-3-32B.
Resultados:
- 88.173 amostras para a Etapa QI.
- 12.887 amostras de alta qualidade (alta dependência de áudio e vídeo) para a Etapa MA.

4. Resultados Principais

O OmniVideo-R1 foi testado em diversos benchmarks de áudio-vídeo e vídeo silencioso, superando consistentemente modelos state-of-the-art (SOTA), tanto de código aberto quanto fechados.

Desempenho em Benchmarks de Áudio-Visual:
- No Daily-Omni, alcançou 82.8, superando o modelo fechado Gemini-3-Pro (81.1) e o modelo de código aberto Video-SALMONN 2+-72B (79.4).
- No IntentBench, alcançou 74.2, superando o Gemini-3-Pro (71.5).
- No OmniVideoBench (focado em complementaridade de modalidades), superou a base Qwen3-Omni-30B-A3B em 21.1% (44.8 vs 37.0), quebrando o limite de desempenho anterior que se assemelhava a um "chute aleatório" em tarefas complexas.
Robustez em Vídeo Silencioso (Visual-only):
- O modelo não sofreu degradação no desempenho em tarefas puramente visuais após o treinamento multimodal. Em benchmarks como Video-MME e MLVU, manteve ou melhorou ligeiramente o desempenho em comparação à base, provando que a integração de áudio não prejudica a capacidade visual existente.
Comparação com Outras Estratégias:
- Superou significativamente abordagens como SFT padrão, SFT com Chain-of-Thought (CoT) e RL "Vanilla" (GRPO padrão), demonstrando que a combinação de grounding auto-supervisionado e fusão contrastiva é superior.

5. Contribuições Chave

Novo Framework de RL: Proposta do OmniVideo-R1, o primeiro framework baseado em RL focado em melhorar o raciocínio multimodal misto.
Corpus de Alta Qualidade: Construção de um conjunto de dados de 80k amostras limpas e balanceadas, especificamente curado para tarefas de raciocínio complexo.
Paradigma de Duas Etapas: Introdução de um esquema de treinamento que combina grounding auto-supervisionado (sem anotações de processo) e fusão contrastiva, permitindo que o modelo aprenda intenção de consulta e atenção à modalidade de forma eficiente.
Generalização Robusta: Demonstração de que é possível melhorar a compreensão multimodal sem sacrificar o desempenho em modalidades individuais.

6. Significância

O trabalho do OmniVideo-R1 é significativo porque resolve o problema do "viés de modalidade" que afeta os modelos omnimodais atuais. Ao invés de apenas adicionar dados de áudio, o método ensina o modelo a raciocinar ativamente sobre como e quando usar o áudio e o vídeo juntos. A capacidade de realizar grounding (localização) de evidências sem anotações humanas densas torna o método escalável e prático. Os resultados indicam um passo importante em direção à Inteligência Artificial Geral (AGI), onde a percepção sinérgica de múltiplos sentidos é essencial para a compreensão profunda do mundo real.