Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Each language version is independently generated for its own context, not a direct translation.

🧠 O Desafio: O Modelo de Linguagem que Esquece o Passado

Imagine que você tem um assistente pessoal superinteligente, um "gênio" que sabe quase tudo. Agora, imagine que esse gênico está lendo um livro de mistério com você, página por página.

No começo do livro, o detetive diz: "O ladrão está na cozinha".
A página 10 diz: "O ladrão fugiu para o jardim".
A página 20 diz: "O ladrão foi pego no sótão".
E na página 30, descobre-se que tudo isso era uma mentira e o ladrão estava na garagem o tempo todo.

O grande problema que os pesquisadores descobriram é que os atuais "gênios" (Inteligências Artificiais) têm muita dificuldade em atualizar a história em tempo real. Eles tendem a:

Ficar teimosos: Continuam dizendo que o ladrão está na cozinha, mesmo depois de lerem que ele fugiu.
Ficar confusos: Começam a inventar que o ladrão está em três lugares ao mesmo tempo.
Esquecer o que acabaram de ler: Perdem o foco com tanta informação nova.

🏁 A Prova de Fogo: O "OAKS"

Para testar isso, os criadores do estudo (da KAIST, Google, Adobe, etc.) inventaram um novo teste chamado OAKS.

Pense no OAKS como um jogo de "Quem é o mais rápido a atualizar o mapa?".

Eles criaram duas histórias: uma sintética (como um jogo de tabuleiro com regras estritas) e outra baseada em romances reais.
A história é contada em "pedaços" (chunks) que vão chegando um por um.
A cada novo pedaço, o modelo é perguntado: "Onde está o ladrão agora?".
A resposta certa muda o tempo todo. O modelo precisa apagar a informação antiga e escrever a nova na sua mente, instantaneamente.

📉 O Resultado: Eles Não Conseguem Acompanhar

Os pesquisadores testaram 14 modelos diferentes, desde os mais famosos (como Gemini e Qwen) até sistemas de memória avançados. O resultado foi decepcionante:

A média de acerto foi baixa: Em média, os modelos acertaram apenas 39% no teste sintético e 57% no de romances. Isso é como passar numa prova com nota 4 ou 5.
Quanto mais mudanças, pior: Quando a história mudava muito rápido (o ladrão mudava de lugar a cada 2 páginas), a performance dos modelos caía drasticamente.
Memória não é solução mágica: Mesmo usando sistemas de "memória de agente" (que tentam guardar o que foi lido), os modelos ainda falhavam. Eles se distraíam com informações irrelevantes ou ficavam presos no passado.

🔍 Por que eles falham? (As "Falhas de Comportamento")

O estudo analisou como eles erram e encontrou dois tipos principais de comportamento ruim:

O "Teimoso" (Under-updating):
- Analogia: É como um pai que insiste que o filho ainda usa fralda, mesmo vendo que ele já tem 10 anos.
- O modelo vê a informação nova, mas ignora e continua dando a resposta antiga. Ele tem "inércia".
O "Hiperativo" (Over-updating):
- Analogia: É como alguém que ouve um boato e já muda de opinião imediatamente, sem pensar, e depois muda de novo assim que ouve outra coisa.
- O modelo muda de resposta toda hora, mesmo quando a história não mudou. Ele fica confuso e instável.

💡 O Que Funciona (e o que não funciona)

Pensar antes de falar (Thinking Mode): Quando os modelos são forçados a "pensar" (fazer um raciocínio interno antes de responder), eles melhoram um pouco. É como se o modelo parasse para organizar os fatos antes de gritar a resposta. Mas ainda não é perfeito.
RAG (Recuperação de Informação): Tentar buscar a informação certa em um banco de dados (como um Google interno) ajudou um pouco, mas não resolveu o problema principal de acompanhar a evolução da história.
Tamanho importa, mas não é tudo: Modelos maiores (mais "cérebros") fazem um pouco melhor, mas mesmo o "gênio" mais forte (Gemini 3) ainda erra muito nesse tipo de teste dinâmico.

🚀 Conclusão: O Futuro Precisa de Mais

O estudo conclui que, embora as IAs sejam incríveis em responder perguntas sobre um livro inteiro se você der o livro todo de uma vez, elas ainda não são boas em acompanhar uma história que está sendo escrita ao vivo.

Elas precisam aprender a ser mais como um jornalista em tempo real: capaz de ouvir um fato novo, descartar o fato antigo imediatamente e atualizar a manchete sem entrar em pânico ou teimosia.

Em resumo: Os modelos atuais são ótimos em ler um livro e responder perguntas sobre ele. Mas se você começar a escrever o livro na frente deles, página por página, e perguntar "o que está acontecendo agora?", eles ainda vão se perder no meio do caminho.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) operam frequentemente em contextos do mundo real onde o conhecimento é dinâmico, evoluindo continuamente e surgindo de forma incremental. No entanto, a maioria dos benchmarks atuais foca em conhecimento estático ou tarefas offline, falhando em avaliar adequadamente a capacidade dos modelos de se adaptarem a informações que mudam sequencialmente "on the fly" (em tempo real).

Quando assistentes baseados em LLMs ou agentes incorporados recebem atualizações de contexto gradualmente (como em diálogos longos ou exploração de ambientes), se essas atualizações não forem integradas em tempo real, as previsões do modelo correm o risco de se tornarem desatualizadas ou até inseguras. Existe uma lacuna na avaliação de como os modelos rastreiam e raciocinam sobre mudanças de estado de conhecimento finas e frequentes em fluxos de dados contínuos.

2. Metodologia e Contribuições Principais

Para preencher essa lacuna, os autores introduzem o OAKS (Online Adaptation to Continual Knowledge Streams), um novo benchmark projetado para avaliar a adaptação online a fluxos de conhecimento em constante atualização.

A. O Benchmark OAKS

O OAKS simula cenários onde fatos chegam sequencialmente e podem substituir ou contradizer informações anteriores, exigindo que o modelo revise dinamicamente seu estado de conhecimento. Diferente de trabalhos anteriores que focam em atualizações divergentes ou estados estruturados de curto prazo (como slots de diálogo), o OAKS avalia a consistência temporal sobre longos horizontes de fluxos contínuos.

B. Novos Conjuntos de Dados

O paper apresenta dois datasets principais, onde fatos evoluem múltiplas vezes ao longo de "chunks" (pedaços) de contexto:

OAKS-BABI (OAKS-B): Um dataset sintético derivado do benchmark BABILong. Ele reformula fatos estáticos para focar em mudanças de estado dinâmicas. Contém 1.2k perguntas de quatro tipos: Tracking (rastreio), Counting (contagem), Bridge (ponte) e Comparison (comparação). O contexto é dividido em 65 chunks de 2k tokens, com uma média de 4,7 mudanças de resposta por pergunta.
OAKS-Novel (OAKS-N): Um dataset curado por humanos, extraído de romances literários completos (39 livros). Oferece contextos naturais com narrativas ricas, flashbacks e linhas do tempo complexas. Contém 870 perguntas de múltipla escolha, com uma média de 4,7 mudanças de resposta por pergunta e contextos variando de 26 a 286 chunks.

Características Chave dos Dados:

Anotação Densa: Para cada pergunta, as respostas são anotadas em cada intervalo de tempo (chunk), permitindo medir a precisão do rastreamento de mudanças.
Subconjuntos de Frequência: Os dados são estratificados em Sparse (poucas mudanças), Moderate e Frequent (muitas mudanças) para testar a robustez sob diferentes taxas de atualização.

C. Configuração de Avaliação

Avaliação Intervalar: O modelo é testado em cada intervalo de tempo $t$ , tendo acesso a todos os chunks acumulados até aquele ponto ( $c_1$ a $c_t$ ) e respondendo ao mesmo conjunto de perguntas.
Métrica Principal: Precisão no nível do intervalo (Interval-level Accuracy), comparando a previsão do modelo com a verdade fundamental (Ground Truth) específica para aquele momento.
Estratégias de Inferência: Foram testadas diversas abordagens, incluindo:
- Base: Concatenação de todos os chunks (com truncamento se necessário).
- RAG (Retrieval-Augmented Generation): Recuperação dos chunks mais relevantes.
- Sistemas de Memória Agêntica: Uso de HippoRAG-V2, MemAgent e A-Mem.

3. Resultados Experimentais

Os autores avaliaram 14 modelos (incluindo Qwen, GPT-OSS, Gemma, Gemini 2.5 e Gemini 3) com diferentes tamanhos e estratégias.

Desempenho Geral

Desafio Significativo: O OAKS provou ser extremamente difícil. Mesmo os modelos de ponta (SOTA) tiveram desempenho limitado.
- Média de precisão em modelos Open-Source: 33.0% (OAKS-B) e 52.9% (OAKS-N).
- Média de precisão em modelos Proprietários: 60.9% (OAKS-B) e 72.6% (OAKS-N).
- O melhor modelo, Gemini 3 Pro, atingiu apenas 66.3% no OAKS-B e 75.5% no OAKS-N.
Escala do Modelo: O desempenho geralmente escala com o tamanho do modelo e a qualidade da base (família Qwen3 superou Qwen2.5; modelos proprietários superaram open-source).
Dificuldade com Atualizações Frequentes: O desempenho degrada drasticamente em subconjuntos com mudanças frequentes de resposta (Frequent), caindo para 33.3% no OAKS-B e 53.0% no OAKS-N, indicando que o rastreamento de estados dinâmicos é um gargalo.

Análise de Estratégias

RAG Simples: Mostrou eficácia limitada. Em média, houve uma queda de desempenho em subconjuntos com atualizações frequentes, sugerindo que a recuperação simples não lida bem com a necessidade de raciocínio sobre múltiplos chunks inter-relacionados e contextos distrativos.
Sistemas de Memória Agêntica: Embora tenham desempenho competitivo em subconjuntos moderados e frequentes (especialmente o MemAgent), eles ainda não superaram consistentemente o RAG simples em todos os cenários e falharam em lidar robustamente com atualizações finas e frequentes.

Análise Comportamental (Falhas e Padrões)

Modo de Pensamento (Thinking Mode): Ativar o modo de raciocínio explícito (Chain-of-Thought) melhorou consistentemente a precisão, especialmente em perguntas complexas que exigem raciocínio multihop (como perguntas do tipo "Bridge").
Padrões de Falha:
- Sobre-atualização (Over-updating): Alguns modelos (ex: GPT-OSS) tendem a mudar previsões desnecessariamente, exibindo "Volatilidade" (mudam quando não deveriam).
- Sub-atualização (Under-updating): Outros (ex: Gemini, Gemma) exibem "Obstinácia" ou "Teimosia", mantendo respostas antigas mesmo quando o estado subjacente mudou.
- Latência de Aquisição: Modelos muitas vezes detectam a transição correta, mas com atraso (Latência de Aquisição).
- Susceptibilidade à Distração: À medida que o contexto cresce, os modelos tendem a perder o estado correto identificado anteriormente, especialmente em perguntas do tipo "Bridge" e "Tracking".

4. Significado e Conclusões

O trabalho OAKS estabelece um novo padrão para avaliar a capacidade de adaptação online de LLMs, indo além da simples compreensão de contexto longo.

Limitações Atuais: Os resultados demonstram que, embora os modelos sejam capazes de processar contextos longos, eles falham em manter a consistência temporal e atualizar seu estado de conhecimento de forma precisa e oportuna em fluxos contínuos.
Falhas Específicas: O principal problema não é apenas a falta de informação, mas a incapacidade de distinguir entre fatos antigos e novos em meio a distrações contextuais, levando a erros de "perda de estado" ou atualizações prematuras.
Implicações Futuras: O benchmark sugere que a simples escala de contexto ou o uso de RAG padrão não são suficientes para agentes autônomos que operam em ambientes dinâmicos. São necessárias novas arquiteturas ou mecanismos de memória que priorizem a consistência temporal e a gestão de estados evolutivos.

Em resumo, o OAKS revela que, apesar dos avanços recentes, os LLMs atuais ainda não conseguem "acompanhar" o ritmo de mudanças de conhecimento do mundo real de forma robusta, apresentando falhas críticas em cenários de adaptação contínua.