Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

O artigo apresenta o Proact-VL, um framework geral que transforma modelos de linguagem multimodal em agentes interativos proativos e em tempo real para companheiros de IA, superando desafios de latência e decisão autônoma através de uma nova métrica de benchmark chamada Live Gaming.

Weicai Yan, Yuhong Dai, Qi Ran, Haodong Li, Wang Lin, Hao Liao, Xing Xie, Tao Jin, Jianxun Lian

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está jogando um videogame difícil, como Elden Ring ou League of Legends. Você está focado, suando frio, tentando derrotar um chefe. De repente, você ouve uma voz: "Olha, tem um baú ali atrás da árvore!" ou "Cuidado, o chefe vai usar o ataque de fogo!". Essa voz não é um amigo humano, mas uma Inteligência Artificial (IA) companheira que está assistindo ao seu jogo em tempo real e comentando com você.

O problema é que, até agora, essas IAs eram meio "estranhas". Elas ou ficavam em silêncio o tempo todo (deixando você sozinho) ou falavam sem parar, atrapalhando sua concentração, como um narrador que não sabe quando calar a boca.

O artigo "Proact-VL" apresenta uma solução para isso. Vamos explicar como funciona usando algumas analogias simples:

1. O Problema: O Companheiro que não sabe a hora certa de falar

Pense em um narrador de futebol. Se ele ficar gritando "A bola vai, a bola vem" o tempo todo, você fica cansado. Se ele ficar calado durante o gol, você perde a emoção.
A IA precisa ter o "timing" perfeito. Ela precisa saber:

  • Quando falar: Apenas em momentos importantes (um gol, um perigo, uma pergunta sua).
  • O que falar: Algo curto, útil e que faça sentido com o que está na tela.
  • Como falar: Com a personalidade certa (seja um narrador animado ou um treinador calmo).

2. A Solução: O "Proact-VL" (O Companheiro Proativo)

Os pesquisadores criaram um novo modelo chamado Proact-VL. Pense nele como um narrador-espião superinteligente que assiste ao seu jogo a cada segundo.

Ele funciona em três etapas principais:

  • O Olho que Nunca Pisca (Processamento em "Fatias"):
    Em vez de assistir ao jogo inteiro de uma vez (o que deixaria a IA lenta), o Proact-VL assiste ao jogo em "fatias" de 1 segundo. É como se ele recebesse uma foto nova a cada segundo. Isso permite que ele reaja instantaneamente, sem atraso.

  • O Semáforo Interno (O Mecanismo Proativo):
    Aqui está a mágica. A IA tem um "semáforo" interno. A cada segundo, ela analisa a imagem e pergunta a si mesma: "Será que preciso falar agora?".

    • Se a resposta for não (o jogador está apenas andando, nada de novo acontece), ela fica em silêncio.
    • Se a resposta for sim (o jogador está prestes a cair em uma armadilha ou acabou de ganhar um item), ela acende o sinal verde e fala algo rápido.
    • Analogia: É como um amigo que está jogando com você. Ele não fica gritando "Olha o chão, olha o chão" o tempo todo. Ele só grita "CUIDADO!" quando você está prestes a tropeçar.
  • O Treinador Personalizado (Aprendizado Especializado):
    Para aprender a ser um bom companheiro, os pesquisadores criaram um "estágio" gigante. Eles pegaram mais de 560 horas de vídeos de jogos reais (como Cyberpunk 2077, Minecraft, League of Legends) e ensinaram a IA a imitar narradores humanos e treinadores.

    • Eles ensinaram a IA a entender o contexto: se você está jogando Minecraft, ela fala sobre construir; se está jogando League of Legends, ela fala sobre estratégia de time.
    • Eles também ensinaram a IA a ter uma "personalidade" (pode ser engraçada, séria ou empolgada).

3. O Resultado: Um Companheiro que "Sente" o Jogo

Os testes mostraram que o Proact-VL é muito melhor que as IAs anteriores.

  • Menos atraso: Ele fala quase ao mesmo tempo que o evento acontece na tela.
  • Mais inteligente: Ele não fala bobagem. Se você está em silêncio, ele fica em silêncio. Se você faz uma pergunta ("Como faço para minerar diamante?"), ele dá a resposta exata no momento certo.
  • Versátil: Ele funciona sozinho (comentando o jogo) ou em equipe (conversando com outros narradores humanos sem se atrapalhar).

Resumo em uma frase

O Proact-VL é como ter um amigo experiente jogando ao seu lado, que sabe exatamente quando dar uma dica rápida, quando celebrar uma vitória e quando ficar quieto para você focar, tudo isso sem precisar que você peça nada. Ele transformou a IA de um "robô que fala sem parar" em um "companheiro de jogo que entende o ritmo da diversão".