Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète
L'idée principale : Deux façons d'ignorer les choses
Imaginez que vous essayez de comprendre un système complexe, comme une pièce bondée ou un réseau de neurones (un type d'IA). Parfois, vous ne pouvez pas suivre chaque personne ou chaque nombre. Vous devez décider d'ignorer une partie du système pour vous concentrer sur la partie qui vous intéresse.
En physique et en mathématiques, cet acte d'« ignorer » ou d'« intégrer par intégration » une partie d'un système est un mouvement standard. L'auteur, Jin Lei, soutient qu'il existe deux manières très différentes de le faire, et bien que les chercheurs en IA utilisent principalement l'une d'entre elles, les physiciens nucléaires ont maîtrisé l'autre.
1. La voie « Fermée » (Ce que fait l'IA)
L'analogie : Imaginez que vous prenez une photo d'un groupe d'amis, mais que vous décidez de flouter l'arrière-plan.
- Ce qui se passe : Vous perdez les détails de l'arrière-plan, mais la photo de vos amis reste parfaitement claire et « entière ». Le flou ne vole aucune lumière ou énergie à vos amis ; il supprime simplement les données de l'arrière-plan.
- En IA : Lorsque les chercheurs en IA font la moyenne de nombres aléatoires (paramètres) dans un réseau de neurones, ils obtiennent un résultat « fermé ». Les mathématiques restent simples, réelles et symétriques. C'est un résumé sans perte. Rien ne s'« échappe ».
2. La voie « Ouverte » (Ce que fait la physique nucléaire)
L'analogie : Imaginez que vous êtes dans une pièce où la porte est légèrement entrouverte. Vous essayez de suivre la pression de l'air à l'intérieur de la pièce.
- Ce qui se passe : L'air s'échappe par la porte. Si vous essayez de décrire l'air uniquement à l'intérieur de la pièce, votre description doit tenir compte du fait que l'air s'échappe. Les mathématiques deviennent « fuyantes » et complexes. Vous devez tenir un registre strict (un reçu) de l'air qui s'est échappé exactement et de l'endroit où il est allé.
- En physique nucléaire : C'est ce qu'on appelle le Modèle Optique. Lorsqu'un noyau interagit avec des particules, certaines particules s'échappent dans le « continuum » (le reste de l'univers). Les mathématiques décrivant le noyau deviennent « non-Hermitiennes » (une façon sophistiquée de dire qu'elles sont complexes et fuyantes). Crucialement, les mathématiques incluent un Registre de Flux : un compte exact de la probabilité qui a quitté le système.
La thèse principale du papier
L'auteur affirme : « L'IA ne fait que la version "Fermée". Elle ignore la version "Ouverte". »
Les chercheurs en IA possèdent un excellent dictionnaire pour traduire leur mathématique « Fermée » vers la physique nucléaire. Par exemple :
- Le Noyau Tangent Neural (comment l'IA apprend) est la même chose que le Nêtre de Sensibilité de Fisher (à quel point un modèle nucléaire est sensible aux changements).
- Une IA à largeur infinie est la même chose qu'un Processus Gaussien (un outil statistique standard).
Cependant, l'auteur soutient que l'IA est aveugle au côté « Ouvert ». L'IA traite toute information qu'elle écarte (comme ignorer un mot dans une phrase ou couper une partie d'un réseau) comme une simple erreur ou une erreur d'approximation. Elle ne le traite pas comme une perte physique qui doit être tracée et conservée.
Le « Registre de Flux »
En physique nucléaire, lorsque des particules s'échappent, la théorie ne dit pas simplement : « Oups, nous en avons perdu un peu. » Elle dit : « Nous avons perdu exactement 0,5 unité de probabilité vers le Canal A et 0,2 vers le Canal B, et voici la preuve mathématique. »
L'auteur a tenté de construire ce « Registre de Flux » pour l'IA. Il s'est demandé : Si nous traitons les parties « ignorées » d'une IA comme une porte qui fuit, pouvons-nous suivre la probabilité perdue ?
Le résultat surprenant (Le constat « négatif »)
L'auteur a effectué des tests pour voir si cette mathématique « Ouverte » fonctionnait pour de vrais modèles d'IA (comme les mécanismes d'attention dans les modèles de langage de grande taille ou les routeurs qui choisissent quels experts utiliser).
Le résultat : Cela a principalement échoué.
- Pourquoi ? Pour que la mathématique « Ouverte » fonctionne, la partie que vous ignorez doit être comme un océan infini où les vagues peuvent voyager éternellement (un spectre continu).
- Le problème : Les modèles d'IA sont généralement finis et « dissipatifs » (ils se relaxent et se stabilisent). Ils n'ont pas cette qualité d'« océan infini ».
- La conséquence : Lorsque l'auteur a tenté d'imposer la mathématique « Ouverte » à l'IA, le « Registre de Flux » n'existait pas, ou la « perte » n'était qu'un artefact de la façon dont il avait découpé les données, et non une véritable propriété physique.
Le rebondissement des « Hallucinations »
L'auteur a également examiné une idée populaire : Cette mathématique de la « fuite » peut-elle détecter quand une IA hallucine (invente des choses) ?
La réponse : Non.
- La raison : Lorsqu'une IA hallucine avec assurance, elle est en réalité très « fermée ». Elle s'engage fortement dans une mauvaise réponse. La « fuite » (l'incertitude) est faible car le modèle est sûr de lui.
- La véritable incertitude : L'incertitude qui importe (l'incertitude épistémique — si le modèle connaît la réponse) réside dans la partie « Fermée » des mathématiques (la variance de l'ensemble), et non dans la partie « Ouverte ».
Résumé
- La Carte : Le papier dessine une carte montrant que l'IA et la physique nucléaire partagent la même algèbre pour « ignorer » les choses.
- L'Écart : L'IA n'utilise que la version « Fermée » (sans perte). La physique nucléaire possède une théorie pleinement développée pour la version « Ouverte » (fuyante), incluant un compte rigoureux de ce qui est perdu.
- Le Test : L'auteur a tenté d'apporter la théorie « Ouverte » dans l'IA.
- Le Verdict : Cela n'a pas bien fonctionné. Les modèles d'IA réels sont trop finis et « relaxationnels » pour supporter la mathématique « Ouverte » complexe et ondulatoire utilisée par la physique nucléaire. Les caractéristiques « Ouvertes » que l'auteur espérait trouver étaient soit absentes, soit de simples artefacts mathématiques.
En bref : Le papier est une mise en garde. Il nous dit que bien que nous puissions emprunter certaines mathématiques à la physique nucléaire, les outils spécifiques « fuyants » qu'ils utilisent pour suivre l'échappement des particules ne s'adaptent pas naturellement à l'architecture actuelle de l'IA. L'incertitude « utile » dans l'IA se trouve toujours du côté statistique « Fermé », et non du côté dynamique « Ouvert ».
Noyé(e) sous les articles dans votre domaine ?
Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.