ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Le papier présente ReFusion, un modèle de diffusion masqué innovant qui combine le réordonnancement de séquences et le cadre d'attention causale pour permettre un décodage parallèle efficace avec mise en cache KV, surmontant ainsi les limitations de vitesse et de cohérence des modèles de diffusion existants tout en rivalisant avec les modèles autoregressifs.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Cet article présente un cadre d'apprentissage automatique basé sur les réseaux de Kolmogorov-Arnold avec processus gaussiens variationnels épars (SVGP-KAN) pour reconstruire avec précision et quantifier les incertitudes des champs d'écoulement à partir de mesures de vélocimetry temporellement éparses, surpassant les méthodes classiques en offrant des estimations d'incertitude bien calibrées.

Y. Sungtaek Ju2026-03-06🔬 physics

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE est une méthode qui permet de stocker de multiples experts sur des appareils à ressources limitées en remplaçant le stockage linéaire de matrices de poids indépendantes par une représentation géométrique sub-linéaire basée sur des rotations appliquées à un prototype ternaire partagé, réduisant ainsi la consommation mémoire de 150 fois sans perte significative de précision.

Aryan Karmore2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Ce papier présente le Self-Distilled Reasoner, un cadre d'auto-distillation sur politique où un seul modèle joue à la fois le rôle d'enseignant (conditionné sur des traces de raisonnement privilégiées) et d'élève (ne voyant que la question), permettant d'améliorer les capacités de raisonnement mathématique avec une efficacité tokenique bien supérieure aux méthodes d'apprentissage par renforcement.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Cet article propose une méthode évolutive pour la prédiction du signe des liens dans les graphes signés, qui modélise directement les dépendances statistiques entre les arêtes à l'aide d'une copule gaussienne tout en surmontant les limitations de complexité computationnelle grâce à une représentation factorisée de la matrice de corrélation et une reformulation de la distribution de probabilité conditionnelle.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

L'article présente Latent-IMH, une méthode d'échantillonnage bayésien efficace pour les problèmes inverses linéaires avec des opérateurs coûteux, qui génère des variables latentes via une approximation rapide avant de les affiner avec l'opérateur exact, surpassant ainsi des méthodes de l'état de l'art comme NUTS en termes d'efficacité computationnelle.

Youguang Chen, George Biros2026-03-06🔢 math