d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation

L'article présente d2, un nouveau cadre d'apprentissage par renforcement pour les modèles de langage de diffusion masqués qui utilise des estimateurs de vraisemblance de trajectoire spécialisés (d2-AnyOrder et d2-StepMerge) pour améliorer considérablement les capacités de raisonnement sur les benchmarks logiques et mathématiques, atteignant de nouvelles performances de l'état de l'art.

Auteurs originaux : Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Publié 2026-06-02✓ Author reviewed
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un artiste très talentueux capable de peindre un chef-d'œuvre en partant d'une toile vierge et en ajoutant progressivement des détails jusqu'à ce que l'image soit complète. C'est ainsi que fonctionnent les Modèles de Langage de Diffusion (DLM). Contrairement aux écrivains IA traditionnels qui construisent des phrases mot après mot (comme l'empilement de briques), ces modèles partent d'un fouillis de « bruit » (comme de la neige sur une vieille télévision) et le « débruitent » lentement, révélant une histoire ou une solution cohérente étape par étape.

Le papier présente une nouvelle méthode d'entraînement appelée d2 pour apprendre à ces artistes comment résoudre des énigmes difficiles (comme des problèmes de mathématiques ou des jeux de logique) bien mieux. Voici la décomposition de son fonctionnement, en utilisant des analogies simples.

Le Problème : Le Critique « Aveugle »

Pour apprendre à une IA à raisonner, les chercheurs utilisent l'Apprentissage par Renforcement (RL). Voyez cela comme un jeu où l'IA tente de résoudre une énigme, et un « Critique » (un système de récompense) lui donne un score. Si l'IA obtient un bon score, elle apprend à refaire cela.

Cependant, il y a un piège avec les modèles de diffusion. Pour apprendre efficacement, l'IA doit savoir exactement à quel point la séquence spécifique de mots qu'elle a générée était probable.

  • Pour l'IA traditionnelle (Autorégressive) : C'est comme écrire une lettre. Vous savez exactement ce que vous avez écrit en premier, en deuxième, en troisième. Calculer la « probabilité » est facile et rapide.
  • Pour l'IA de Diffusion : C'est comme regarder une sculpture émerger d'un bloc de pierre. L'IA effectue des milliers de petits ajustements. Pour connaître la probabilité exacte de la statue finale, il faudrait théoriquement rembobiner la vidéo et rejouer chaque image du processus de sculpture. Faire cela pour chaque étape d'entraînement est informatiquement impossible (trop lent et trop coûteux).

Parce qu'ils ne pouvaient pas calculer ce « score » avec précision, les méthodes précédentes faisaient des estimations, ce qui entraînait de faibles capacités de raisonnement.

La Solution : d2 (Le Scorekeeper Intelligent)

Les auteurs ont créé d2, un cadre qui agit comme un scorekeeper super efficace. Il détermine la « probabilité » du parcours de l'IA sans avoir à rejouer tout le film à chaque fois. Ils ont construit deux outils différents pour deux types d'artistes différents :

Outil 1 : d2-AnyOrder (Le « Miroir Magique »)

Certains modèles de diffusion sont spéciaux ; ils peuvent révéler l'image finale dans n'importe quel ordre. Vous pourriez peindre les yeux d'abord, puis le nez, puis l'arrière-plan, ou l'inverse, et cela fonctionne toujours.

  • L'Analogie : Imaginez que vous avez un miroir magique. Au lieu de regarder la peinture se faire étape par étape, vous pouvez regarder la peinture finie et voir instantanément ce que l'artiste aurait dit à chaque étape, tout d'un coup.
  • Le Résultat : Cet outil, appelé d2-AnyOrder, calcule le score parfait en un seul regard (un seul passage informatique). Il est incroyablement précis et permet à l'IA d'apprendre très vite.

Outil 2 : d2-StepMerge (La « Stratégie de Fractionnement »)

La plupart des modèles de diffusion populaires (comme le célèbre LLaDA) ne peuvent pas peindre dans n'importe quel ordre ; ils doivent suivre une séquence spécifique. Ils n'ont pas le « miroir magique ».

  • L'Analogie : Puisque nous ne pouvons pas voir tout le film d'un coup, nous divisons le film en segments. Au lieu de regarder chaque image, nous regardons le film par segments de 10 secondes. Nous estimons le score pour chaque segment et les additionnons.
  • Le Résultat : Cet outil, appelé d2-StepMerge, est une approximation. Ce n'est pas parfait, mais les auteurs ont prouvé mathématiquement que l'erreur est faible et contrôlable. Il échange une petite partie de précision contre un gain massif de vitesse, ce qui le rend pratique pour les modèles standards.

Les Résultats : De Novice à Grand Maître

Les chercheurs ont testé ces outils sur certaines des énigmes les plus difficiles pour l'IA :

  1. Jeux de Logique : Sudoku et Countdown (un jeu mathématique).
  2. Problèmes de Mathématiques : GSM8K et MATH500 (benchmarks standards pour le raisonnement mathématique).

Le Résultat :

  • Sans aucune « fiche de triche » supplémentaire (Fine-tuning supervisé) : Le cadre d2 a appris aux modèles à mieux raisonner que toute méthode précédente.
  • Battre la Compétition : Sur les tests de Sudoku et Countdown, les modèles entraînés par d2 ont atteint des scores proches de 92 % et 56 % respectivement, écrasant les meilleures méthodes précédentes qui étaient bloquées autour de 22 % et 42 %.
  • Maîtrise des Mathématiques : Sur les benchmarks mathématiques complexes, d2 a établi un nouveau record de « State-of-the-Art », prouvant que les modèles de diffusion peuvent être aussi bons que les modèles de génération de texte traditionnels pour le raisonnement, avec les avantages supplémentaires d'être plus rapides et plus contrôlables.

Résumé

Le papier affirme : « Nous avons trouvé un moyen d'apprendre aux modèles d'IA de diffusion comment penser clairement. »

  • Ils ont réalisé que l'ancienne façon de noter le travail de l'IA était trop lente et imprécise.
  • Ils ont inventé d2, un nouveau système de notation qui est soit parfaitement précis (pour les modèles spéciaux), soit intelligemment efficace (pour les modèles standards).
  • En utilisant ce nouveau système, les modèles d'IA ont appris à résoudre des énigmes logiques et mathématiques bien mieux qu'auparavant, sans avoir besoin qu'on leur pré-enseigne les réponses.

En bref, d2 donne aux modèles de diffusion la capacité de « regarder en arrière » sur leur propre processus de pensée de manière précise, leur permettant d'apprendre de leurs erreurs et de devenir de véritables experts en raisonnement.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →