Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Esta palestra no ECIR 2025 explora a interação entre o conhecimento paramétrico e contextual em Modelos de Linguagem, apresentando pesquisas sobre avaliação de conhecimento, testes diagnósticos para conflitos e características do uso bem-sucedido de contexto.

Isabelle Augenstein

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (como o ChatGPT) são como cozinheiros extremamente talentosos, mas com uma memória peculiar.

Este artigo é um resumo de uma palestra dada pela pesquisadora Isabelle Augenstein, que investiga exatamente como esses "cozinheiros" funcionam quando precisam decidir o que colocar no prato: o que eles já sabem de cor (memória interna) ou o que alguém acabou de entregar na mesa (informação nova do contexto).

Aqui está a explicação do artigo, traduzida para uma linguagem simples e cheia de analogias:

1. O Cozinheiro e a Receita de Memória (Conhecimento Paramétrico)

Quando um modelo de IA é treinado, ele "engole" milhões de livros e artigos. Tudo o que ele aprende fica gravado nos seus "pesos" (os neurônios digitais). Isso é o conhecimento paramétrico.

  • A Analogia: É como se o cozinheiro tivesse lido todas as receitas do mundo e as tivesse memorizado. Ele sabe que "o pão leva farinha" sem precisar olhar nada.
  • O Problema: Se o mundo muda (ex: descobrimos que o pão deve levar um ingrediente novo), o cozinheiro não sabe disso, a menos que seja re-treinado (o que é caro e demorado). Além disso, às vezes ele "alucina" e inventa receitas que nunca existiram.

2. O Pedido de Ajuda Externa (Conhecimento Contextual e RAG)

Para corrigir isso, usamos uma técnica chamada RAG (Geração Aumentada por Recuperação). É como se, antes de cozinhar, alguém entregasse ao cozinheiro um bilhete com a receita atualizada.

  • O Cenário Ideal: O cozinheiro lê o bilhete, esquece o que estava na memória antiga e segue a nova receita.
  • O Cenário Real (O Conflito): Muitas vezes, o cozinheiro é teimoso. Se o bilhete diz "o pão leva sal" e a memória dele diz "o pão não leva sal", ele pode ignorar o bilhete e continuar usando a receita antiga. Ou pior, ele pode ficar confuso e misturar as duas coisas de um jeito estranho.

3. O Que a Pesquisa Descobriu? (As Descobertas Chave)

A pesquisadora e sua equipe fizeram vários testes para entender essa teimosia do cozinheiro:

A. Quem está no comando? (Memória vs. Contexto)

Eles criaram testes para ver se o modelo está realmente usando a informação nova ou apenas repetindo o que aprendeu antes.

  • A Descoberta Surpreendente: O modelo é mais fácil de convencer com fatos antigos e estáticos do que com fatos que mudam com o tempo.
    • Exemplo: Se você disser "A capital do Japão é Estocolmo" (uma mentira clara e estática), o modelo pode aceitar o erro facilmente. Mas se você der informações sobre algo que muda todo dia (como o clima ou notícias de ontem), o modelo tende a ignorar o contexto e confiar na sua memória antiga. É como se ele fosse mais teimoso com o que é "dinâmico".

B. O Cozinheiro não é um Detetive (Limitações de RAG)

Muitas pessoas acham que, se você der um monte de documentos ao modelo, ele vai ler tudo e escolher o melhor.

  • A Realidade: O modelo prefere documentos que são fáceis de ler e parecem com a pergunta. Se a resposta estiver escondida em um texto longo e complexo, ele pode ignorar.
  • O Perigo dos Dados Sintéticos: Muitos testes anteriores usavam cenários falsos (fictícios) onde o conflito era óbvio. No mundo real, esses conflitos são mais sutis. Os testes falsos exageravam o problema, fazendo parecer que o modelo era pior do que realmente é, ou que ele ignorava contextos que, na verdade, ele conseguiria usar se o contexto fosse bem escrito.

C. Como consertar o teimoso?

Eles testaram várias formas de "forçar" o modelo a ler o bilhete (técnicas de manipulação de contexto).

  • Resultado: Não existe uma "bala de prata". Às vezes, pedir educadamente funciona; outras vezes, mudar a estrutura do texto ajuda. Modelos maiores geralmente são melhores em ouvir o contexto, mas modelos menores podem ser treinados para serem excelentes em tarefas específicas se receberem o "bilhete" da maneira certa.

4. A Conclusão: Estamos Subindo uma Espiral

A palestra termina com uma citação da lendária pesquisadora Karen Spärck Jones. A ideia é que, na ciência, parece que estamos dando voltas em círculos (repetindo velhos problemas), mas na verdade estamos subindo uma espiral.

  • O Significado: Estamos descobrindo os mesmos problemas de sempre (como modelos que não raciocinam bem e apenas recitam), mas agora temos ferramentas melhores e entendemos melhor por que isso acontece. Não é um círculo vicioso, é um progresso.

Resumo em uma frase:

Este artigo nos ensina que, para fazer os "super-robôs" de IA serem verdadeiramente úteis e precisos, precisamos entender que eles são teimosos: às vezes ignoram informações novas se entrarem em conflito com o que já sabem, e precisamos criar formas mais inteligentes de apresentar essas informações para que eles realmente as usem, em vez de apenas fingir que leram.