cs.LG articles | Gist.Science

Sparse Attention Post-Training for Mechanistic Interpretability

Cette étude présente une méthode de post-entraînement qui rend l'attention des transformeurs extrêmement clairsemée sans compromettre les performances, révélant ainsi des circuits de calcul plus simples et interprétables tout en démontrant que la majeure partie du calcul des modèles actuels est redondante.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Cet article propose SACP, une nouvelle méthode d'agrégation symétrique des scores de non-conformité de plusieurs modèles prédictifs pour générer des ensembles de prédiction conformes plus efficaces et fiables.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Le papier présente ReFusion, un modèle de diffusion masqué innovant qui combine le réordonnancement de séquences et le cadre d'attention causale pour permettre un décodage parallèle efficace avec mise en cache KV, surmontant ainsi les limitations de vitesse et de cohérence des modèles de diffusion existants tout en rivalisant avec les modèles autoregressifs.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

Measuring Uncertainty Calibration

Cet article propose des bornes supérieures non asymptotiques et sans hypothèse de distribution pour l'erreur d'étalonnage des classificateurs binaires, ainsi qu'une méthode pratique pour les modifier afin d'assurer un étalonnage efficace sans compromettre leurs performances.

Kamil Ciosek, Nicolò Felicioni, Sina Ghiassian + 6 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

En s'inspirant de la théorie de la charge cognitive, le papier présente RePo, une nouvelle méthode qui améliore l'apprentissage en contexte des grands modèles de langage en réaffectant dynamiquement les positions des tokens pour réduire la charge cognitive extrinsèque et optimiser l'attention sur les informations pertinentes, même dans des contextes bruyants ou longs.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

Ce papier propose AMPEND-LS, un cadre multi-personas agentic intégrant la synergie entre LLM et SLM pour détecter les fausses nouvelles multimodales de manière précise, robuste et explicable grâce à une analyse de preuves enrichie.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Ce papier propose le cadre général de prédiction de tokens parallèles (PTP), qui accélère le décodage des modèles de langage en rendant les futurs tokens déterministes via des variables d'entrée aléatoires, permettant ainsi de générer plusieurs tokens en une seule passe et d'obtenir un gain de vitesse de 2,4 fois.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Cet article présente un cadre d'apprentissage automatique basé sur les réseaux de Kolmogorov-Arnold avec processus gaussiens variationnels épars (SVGP-KAN) pour reconstruire avec précision et quantifier les incertitudes des champs d'écoulement à partir de mesures de vélocimetry temporellement éparses, surpassant les méthodes classiques en offrant des estimations d'incertitude bien calibrées.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Cette étude démontre que l'intégration des signatures d'impédance électrique cellulaire avec des algorithmes d'apprentissage automatique, en particulier la forêt aléatoire, permet de prédire la malignité cellulaire avec une précision d'environ 90 %, ouvrant la voie à de nouveaux outils de diagnostic.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Ce papier présente le Spectral Sphere Optimizer (SSO), un nouvel algorithme d'optimisation intégré à Megatron qui impose des contraintes spectrales strictes pour aligner pleinement l'entraînement avec la paramétrisation $\mu$ P, surpassant ainsi AdamW et Muon en termes de convergence et de stabilité sur diverses architectures de grands modèles.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Cet article présente le cadre Behavioral Profiling Ensemble (BPE), une approche d'intégration centrée sur le modèle qui, en construisant des profils comportementaux intrinsèques pour chaque apprenant, surpasse les méthodes d'ensemble dynamiques existantes en améliorant la précision prédictive tout en réduisant les coûts computationnels et de stockage.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE est une méthode qui permet de stocker de multiples experts sur des appareils à ressources limitées en remplaçant le stockage linéaire de matrices de poids indépendantes par une représentation géométrique sub-linéaire basée sur des rotations appliquées à un prototype ternaire partagé, réduisant ainsi la consommation mémoire de 150 fois sans perte significative de précision.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Ce papier présente Yuan3.0 Ultra, un modèle de langage open-source de type MoE orienté entreprise qui utilise l'algorithme de pruning d'experts adaptatif par couche (LAEP) pour améliorer l'efficacité du pré-entraînement et obtenir des performances de pointe sur des tâches spécialisées tout en réduisant la taille totale du modèle.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Ce papier présente le Self-Distilled Reasoner, un cadre d'auto-distillation sur politique où un seul modèle joue à la fois le rôle d'enseignant (conditionné sur des traces de raisonnement privilégiées) et d'élève (ne voyant que la question), permettant d'améliorer les capacités de raisonnement mathématique avec une efficacité tokenique bien supérieure aux méthodes d'apprentissage par renforcement.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Cet article propose une méthode évolutive pour la prédiction du signe des liens dans les graphes signés, qui modélise directement les dépendances statistiques entre les arêtes à l'aide d'une copule gaussienne tout en surmontant les limitations de complexité computationnelle grâce à une représentation factorisée de la matrice de corrélation et une reformulation de la distribution de probabilité conditionnelle.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Cet article établit des garanties de convergence plus précises et rapides pour l'optimiseur Muon en utilisant une analyse directe et simplifiée qui s'affranchit des hypothèses restrictives des travaux antérieurs, offrant ainsi une caractérisation théorique améliorée applicable à une plus large gamme de problèmes d'optimisation non convexe.

Shuntaro Nagashima, Hideaki Iiduka2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

L'article présente Latent-IMH, une méthode d'échantillonnage bayésien efficace pour les problèmes inverses linéaires avec des opérateurs coûteux, qui génère des variables latentes via une approximation rapide avant de les affiner avec l'opérateur exact, surpassant ainsi des méthodes de l'état de l'art comme NUTS en termes d'efficacité computationnelle.

Youguang Chen, George Biros2026-03-06🔢 math

← Précédent Suivant →