Drift and selection in LLM text ecosystems

Cet article propose un cadre mathématique exact pour analyser comment la boucle de rétroaction entre la génération et l'apprentissage du texte par les IA, sous l'effet combiné de la dérive et de la sélection, peut soit appauvrir le corpus public vers un état superficiel, soit préserver des structures complexes selon les critères de publication.

Søren Riis

Publié 2026-04-13
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que l'intelligence artificielle (IA) et les humains écrivent ensemble un immense livre, appelé « l'Internet ». Ce livre est si grand qu'il sert de manuel d'apprentissage pour les nouvelles générations d'IA.

Le problème, c'est que ce livre change tout le temps. Les IA écrivent des pages, les humains les publient, et ensuite, les nouvelles IA apprennent à écrire en lisant ce qui a été publié. C'est une boucle infinie.

Cet article de Søren Riis explique ce qui se passe dans cette boucle avec deux forces principales : la dérive (le hasard) et la sélection (le filtre).

Voici une explication simple, avec des images pour mieux comprendre.

1. La Dérive : Le « Bruit de fond » qui efface les détails

Imaginez que vous avez un grand sac de billes de toutes les couleurs (c'est notre texte actuel). Vous voulez en faire une nouvelle copie pour l'année prochaine. Vous prenez un échantillon de billes au hasard pour faire cette copie.

  • Ce qui se passe : Si vous avez une bille rouge très rare (un mot bizarre ou une phrase originale), il y a de fortes chances qu'elle ne soit pas tirée dans votre échantillon. Elle disparaît.
  • L'analogie : C'est comme si vous essayiez de copier un dessin complexe en regardant seulement quelques pixels au hasard. À force de copier sur copie, les détails fins disparaissent. Les mots rares s'éteignent, et le texte devient de plus en plus « moyen », de plus en plus générique.
  • Le résultat : Sans intervention, le texte public devient superficiel. Il perd sa richesse, ses nuances et ses structures complexes. C'est ce qu'on appelle la « dérive ».

2. La Sélection : Le Filtre du Chef d'Orchestre

Maintenant, imaginons qu'avant de publier le nouveau livre, un éditeur (ou un algorithme) le relise.

  • Cas A : La Sélection « Descriptive » (Le miroir)
    L'éditeur dit : « Publiez tout ce qui ressemble à ce qu'on a déjà vu. »

    • Résultat : C'est comme regarder dans un miroir déformant. On ne fait que répéter ce qui est déjà là. Le texte devient encore plus plat et prévisible. L'IA n'apprend plus rien de nouveau, elle tourne en rond. C'est une impasse.
  • Cas B : La Sélection « Normative » (Le juge exigeant)
    L'éditeur dit : « Publiez seulement ce qui est correct, créatif ou utile. Si une phrase est logique mais ennuyeuse, on la rejette. Si elle est brillante, on la garde. »

    • L'analogie : C'est comme un entraînement de sport. Si vous ne courez que sur du plat, vous ne devenez pas un bon athlète. Mais si vous vous entraînez avec des obstacles (vérification, logique, créativité), vous gardez votre forme.
    • Résultat : Même si le texte est filtré, il conserve sa profondeur. Les structures complexes survivent parce qu'elles sont « validées » par le filtre. L'IA continue d'apprendre des choses subtiles.

3. La Leçon pour l'Avenir

L'auteur nous dit que le futur de l'IA dépend de comment nous filtrons les textes.

  • Si nous laissons les IA s'entraîner uniquement sur ce qu'elles ont produites elles-mêmes, sans vérification stricte, nous risquons un effondrement : le texte deviendra un bruit blanc, répétitif et vide de sens.
  • Mais si nous utilisons des filtres intelligents (comme vérifier les faits, exiger de la logique ou récompenser la nouveauté), nous pouvons maintenir un environnement riche.

En résumé :
L'IA est comme un écho dans une grotte.

  • Si vous laissez l'écho rebondir sans contrôle (dérive), le son devient un bourdonnement informe.
  • Si vous avez un gardien qui ne laisse passer que les chants clairs et justes (sélection normative), la musique reste belle et complexe.

Cet article nous donne les outils mathématiques pour comprendre exactement comment éviter que notre « bibliothèque numérique » ne se transforme en un mur de bruit, et comment la garder vivante et intelligente.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →