Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de cette présentation (keynote) d'Isabelle Augenstein, imagée et simplifiée pour tout le monde.

🧠 Le Grand Débat : La Mémoire du Cerveau vs. Le Livre Ouvert

Imaginez un Grand Savant (c'est le Modèle de Langage ou LLM) qui a passé sa vie à lire des millions de livres. Il a tout appris par cœur. C'est ce qu'on appelle la connaissance paramétrique : c'est sa mémoire interne, gravée dans son cerveau (ses poids).

Mais le monde change vite ! Ce que le Savant a appris il y a 5 ans est peut-être faux aujourd'hui. Pour l'aider, on lui donne un Livre d'Actualités (c'est le contexte ou la recherche externe) juste avant qu'il ne réponde à une question. C'est ce qu'on appelle la RAG (Génération Augmentée par la Recherche).

Le problème ? Parfois, le Savant est têtu. Il préfère sa vieille mémoire au nouveau livre qu'on lui tend. Parfois, il ignore même le livre s'il dit le contraire de ce qu'il sait déjà.

Cette conférence explore trois questions cruciales :

Comment fonctionne sa mémoire interne ?
Quand est-ce qu'il accepte de changer d'avis ?
Comment le forcer à utiliser le bon livre au bon moment ?

1. La Mémoire Intérieure : Qui est le vrai chef ? 🕵️‍♀️

Les chercheurs ont voulu comprendre exactement quelles parties du cerveau du Savant sont utilisées pour répondre à une question. Ils ont essayé de faire une "autopsie" de ses pensées en regardant ses neurones.

L'analogie du Chef d'Orchestre :
Ils pensaient que si on coupait certains instruments (neurones) de l'orchestre, la musique (la réponse) changerait. Mais ils ont découvert quelque chose de surprenant : la plupart des instruments sont en fait redondants ! On peut en enlever beaucoup sans que la musique ne s'arrête.

Ce qu'ils ont appris :

Ce n'est pas seulement la "mémoire" (les neurones) qui compte, mais aussi la façon dont le Savant écoute (les mécanismes d'attention).
Si on essaie d'entraîner le Savant avec seulement les "meilleurs" exemples (ceux qui semblent les plus importants), cela ne marche pas toujours mieux que de lui donner des exemples au hasard. Pourquoi ? Parce que les "meilleurs" exemples sont souvent trop similaires entre eux (ils parlent tous de la même chose), alors que le Savant a besoin de diversité pour apprendre vraiment.

2. Le Duel : Mémoire vs. Contexte (La guerre des faits) ⚔️

C'est ici que ça devient drôle. Le Savant a deux types de conflits internes :

Conflit Interne : Il se souvient de deux choses contradictoires dans sa propre tête (ex: "La capitale est Paris" vs "La capitale est Lyon" dans deux vieux livres qu'il a lus).
Conflit Externe : Le livre d'actualité qu'on lui tend dit "La capitale est Berlin", alors que sa mémoire dit "Paris".

La découverte étonnante (Le paradoxe de la rigidité) :
On s'attendait à ce que le Savant soit plus facile à convaincre sur des sujets qui changent souvent (comme la météo ou les résultats sportifs).
Mais non !

Si on lui donne un fait statique (qui ne change jamais, comme "Le soleil est une étoile"), il est très facile de le tromper avec un faux livre. Il accepte n'importe quoi si le livre a l'air convaincant.
Si on lui donne un fait dynamique (qui change souvent), il est plus résistant. Il dit : "Attends, ça change tout le temps, je ne vais pas me fier à ce nouveau livre tout de suite."

En résumé : Plus un fait est "figé" dans sa tête, plus il est facile de le manipuler avec un faux contexte. Plus un fait est "vivant", plus il se méfie.

3. Le Livre Idéal : Comment le convaincre ? 📚

Pour que le Savant utilise bien son livre d'actualité (le contexte), il faut que ce livre ait certaines qualités. Les chercheurs ont créé un nouveau jeu de données (DRUID) pour tester cela dans des conditions réelles, pas juste avec des fausses questions inventées.

Les règles pour un bon livre :

Le ton compte : Les textes qui sont directs, assertifs et qui vont droit au but (comme un article de fact-checking) sont mieux écoutés que les textes hésitants.
La fraîcheur : Un livre écrit après la question a plus de poids qu'un vieux livre.
La similitude : Le Savant préfère les livres qui parlent exactement de la même chose que la question (même si c'est difficile à trouver dans la vraie vie).
La longueur : Attention ! Si le livre est trop long, le Savant perd le fil et commence à halluciner.

Le grand mensonge des fausses données :
Jusqu'à présent, les chercheurs utilisaient des données "synthétiques" (inventées par ordinateur) pour tester les modèles. Ces données exagéraient les conflits. En réalité, dans le monde vrai, les livres d'actualité contredisent rarement la mémoire du Savant. Les chercheurs doivent donc arrêter de jouer avec des fausses données pour comprendre comment les modèles fonctionnent vraiment.

🎓 Conclusion : La spirale du progrès

La conférence se termine sur une note philosophique. Bien que nous ayons fait des progrès incroyables, nous découvrons que les grands modèles d'aujourd'hui font les mêmes erreurs que les modèles d'il y a 10 ans : ils sont excellents pour réciter (comme un perroquet) mais parfois mauvais pour raisonner (comme un humain).

L'auteure cite une célèbre chercheuse, Karen Spärck Jones, pour dire que la science n'est pas un cercle vicieux où l'on tourne en rond, mais une spirale ascendante. On revient sur les mêmes idées, mais avec de meilleurs outils, de meilleurs matériaux et une meilleure compréhension.

En bref : Pour faire confiance à l'IA, il ne suffit pas de lui donner des informations. Il faut comprendre comment elle les mélange avec ce qu'elle sait déjà, et savoir que parfois, elle est plus têue qu'on ne le pense !

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

🧠 Le Grand Débat : La Mémoire du Cerveau vs. Le Livre Ouvert

1. La Mémoire Intérieure : Qui est le vrai chef ? 🕵️‍♀️

2. Le Duel : Mémoire vs. Contexte (La guerre des faits) ⚔️

3. Le Livre Idéal : Comment le convaincre ? 📚

🎓 Conclusion : La spirale du progrès

Titre : Comprendre l'interplay entre l'utilisation des connaissances paramétriques et contextuelles par les LLM

1. Problématique

2. Méthodologie

A. Évaluation des connaissances paramétriques (Attribution)

B. Détection des conflits de connaissances

C. Analyse de l'utilisation du contexte en RAG

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

🧠 Le Grand Débat : La Mémoire du Cerveau vs. Le Livre Ouvert

1. La Mémoire Intérieure : Qui est le vrai chef ? 🕵️‍♀️

2. Le Duel : Mémoire vs. Contexte (La guerre des faits) ⚔️

3. Le Livre Idéal : Comment le convaincre ? 📚

🎓 Conclusion : La spirale du progrès

Titre : Comprendre l'interplay entre l'utilisation des connaissances paramétriques et contextuelles par les LLM

1. Problématique

2. Méthodologie

A. Évaluation des connaissances paramétriques (Attribution)

B. Détection des conflits de connaissances

C. Analyse de l'utilisation du contexte en RAG

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance