Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

O artigo apresenta o Video-TwG, um framework de aprendizado por reforço com currículo que introduz o paradigma "pensar com fundamentação" para permitir que modelos de linguagem de vídeo realizem fundamentação sob demanda em clipes específicos durante o raciocínio, superando assim as alucinações e a redundância temporal comuns na compreensão de vídeos longos.

Houlun Chen, Xin Wang, Guangyao Li, Yuwei Zhou, Yihan Chen, Jia Jia, Wenwu Zhu

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando responder a uma pergunta sobre um filme de 3 horas, mas você só tem permissão para olhar para 5 quadros aleatórios desse filme. É quase impossível acertar, certo? Você pode até tentar adivinhar com base no que "acha" que aconteceu, mas provavelmente vai inventar coisas que não existem (isso é o que os cientistas chamam de "alucinação").

É exatamente esse o problema que o novo sistema Video-TwG (de pesquisadores da Universidade Tsinghua) resolve. Eles criaram um "super detetive" de vídeos longos que não apenas lê o roteiro, mas sabe exatamente quando e onde olhar nos detalhes.

Aqui está a explicação do funcionamento deles, usando analogias do dia a dia:

1. O Problema: O Detetive Cego

Os modelos de inteligência artificial atuais, quando analisam vídeos longos, geralmente recebem uma versão "resumida" e borrada do vídeo inteiro. É como tentar achar uma agulha em um palheiro olhando apenas uma foto desfocada do palheiro.

  • O que acontece: O modelo tenta adivinhar a resposta baseando-se apenas no que tem. Se a informação crucial (como a cor de uma ferramenta específica) não estiver na foto borrada, o modelo inventa uma resposta.
  • No exemplo do artigo: O modelo antigo viu um homem com uma ferramenta e, como não viu bem, inventou que era laranja. A resposta certa era azul.

2. A Solução: O "Zoom Inteligente" (Think-with-Grounding)

O Video-TwG funciona como um detetive que tem um botão de zoom na mão.

  • O Processo:
    1. O modelo olha para o vídeo inteiro de longe (como uma visão geral).
    2. Ele pensa: "Hmm, não consigo ver bem a ferramenta aqui. Preciso de mais detalhes."
    3. Em vez de chutar, ele para, escolhe exatamente o trecho do vídeo onde a ferramenta aparece e dá um zoom (grounding) nessa parte específica.
    4. Agora, com a imagem nítida e em alta definição desse pequeno trecho, ele responde: "Ah, agora vejo! É azul!"

Isso é chamado de "Pensar com Ancoragem". O modelo decide ativamente quando precisa de mais informações, em vez de tentar adivinhar com o que tem.

3. Como eles ensinaram isso? (A Estratégia do Currículo)

Ensinar uma IA a fazer isso do zero é difícil. Imagine tentar ensinar uma criança a dirigir em uma pista de F1 sem nunca ter visto um carro. Eles usaram uma estratégia de dois estágios, como um currículo escolar:

  • Estágio 1 (Escola Primária): Começaram com vídeos curtos e fáceis, onde já sabiam exatamente onde estava a resposta (vídeos de 20 segundos). A IA aprendeu a regra básica: "Se não souber, dê zoom".
  • Estágio 2 (Universidade): Depois que a IA aprendeu a lógica, eles a jogaram em vídeos longos, complexos e de vários temas (notícias, vlogs, filmes), onde não havia um "mapa" de onde estava a resposta. A IA teve que generalizar o que aprendeu e decidir sozinha quando era necessário dar o zoom.

4. O Treinador Inteligente (Recompensas)

Para treinar esse sistema, eles criaram um algoritmo especial (TwG-GRPO) que funciona como um treinador de esportes muito esperto:

  • Recompensa por Precisão: Se a resposta final estiver certa, o modelo ganha pontos.
  • Recompensa por "Não Perder Tempo": O modelo aprendeu que dar zoom em tudo é cansativo e inútil. Se ele consegue responder sem dar zoom, é ótimo. Se precisa dar zoom, ele deve dar no lugar certo.
  • O "Auto-Cheque": Para vídeos onde não sabiam a resposta certa de antemão, o sistema usou uma técnica genial: ele perguntava a si mesmo: "Se eu olhar apenas esse trecho que selecionei, consigo responder a pergunta?". Se a resposta fosse sim, ele recebia um ponto extra. Isso ensinou o modelo a ser seletivo e não dar zoom à toa.

5. O Resultado

Os testes mostraram que esse "detetive com zoom" é muito melhor do que os modelos atuais:

  • Ele acerta mais perguntas em vídeos longos.
  • Ele comete menos erros de alucinação (invenção).
  • Ele é mais eficiente, dando zoom apenas quando realmente necessário.

Em resumo: O Video-TwG não tenta "ler" todo o livro de uma vez só. Ele lê o índice, identifica a página importante, abre o livro naquela página específica e só então responde. Isso torna a inteligência artificial muito mais precisa e confiável para entender vídeos longos e complexos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →