cs.LG articles | Gist.Science

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Cette étude propose un score de confiance normalisé pour détecter les erreurs des grands modèles de langage, révèle que l'apprentissage par renforcement induit une surconfiance contrairement au fine-tuning supervisé, et démontre l'efficacité d'une post-optimisation par distillation pour restaurer la fiabilité de ces modèles dans des tâches critiques.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Ce papier présente STAR, un transformateur d'ensemble amélioré par des biais d'attention temporels et de compatibilité variable pour traiter efficacement les séries temporelles cliniques asynchrones, surpassant les méthodes existantes sur des tâches de prédiction en soins intensifs tout en offrant des interprétabilités sur les interactions temporelles et entre variables.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Le papier propose LegoNet, une technique de compression sans réentraînement qui regroupe les poids des réseaux de neurones en blocs pour réduire l'empreinte mémoire de plus de 64 fois sans perte de précision, ou jusqu'à 128 fois avec une perte inférieure à 3 %.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Cet article propose un cadre de benchmarking systématique pour l'allocation de ressources radio dans les réseaux C-V2X en utilisant l'apprentissage par renforcement profond multi-agents, où des jeux d'interférence progressifs et des données SUMO permettent d'isoler les défis clés et révèlent que la robustesse et la généralisation des politiques face à des topologies variées constituent l'obstacle principal, surpassant ainsi les approches basées sur la valeur.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Cet article présente la suite de cartes Two-Bridge, un benchmark open-source et léger conçu pour combler le fossé entre les mini-jeux et le jeu complet de StarCraft II, en isolant les compétences tactiques essentielles pour permettre une recherche en apprentissage par renforcement accessible sans coûts de calcul excessifs.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Cet article propose une méthode pratique combinant le test de randomisation conditionnelle (CRT) et le modèle fondamental TabPFN pour obtenir des valeurs p valides à échantillon fini afin d'évaluer l'importance des caractéristiques dans des modèles tabulaires, sans nécessiter de réentraînement ni d'hypothèses paramétriques.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Ce papier présente CapTrack, un cadre d'évaluation axé sur les capacités qui redéfinit l'oubli dans le post-entraînement des LLM comme une dérive comportementale systémique et révèle, via une étude à grande échelle, que ce phénomène affecte profondément la robustesse et les comportements par défaut, avec des impacts variables selon les algorithmes et les familles de modèles.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Ce papier présente DeepScope, une solution innovante basée sur l'apprentissage profond qui analyse instantanément des images microscopiques d'échantillons d'eau non incubés pour détecter la contamination fécale avec une précision de 93 % et un coût réduit à 0,44 $ par test, surpassant ainsi les exigences de l'UNICEF.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Ce papier démontre que, contrairement aux domaines vérifiables comme les mathématiques, l'augmentation du calcul d'inférence par agrégation de consensus (type « sagesse des foules ») n'améliore pas la véracité des grands modèles de langage dans les domaines non vérifiés, car leurs erreurs sont fortement corrélées et renforcent les fausses croyances partagées plutôt que de révéler la vérité.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

L'article présente OptiRoulette, un méta-optimiseur stochastique qui sélectionne dynamiquement des règles de mise à jour lors de l'entraînement, permettant une convergence jusqu'à 5,3 fois plus rapide et une précision supérieure par rapport à AdamW sur plusieurs jeux de données d'images.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Cet article propose une représentation unifiée des modèles de diffusion et de l'appariement de flux via deux équations linéaires simples, révélant par une analyse théorique que la corrélation parfois faible entre les données bruitées et la cible prédite peut nuire au processus d'apprentissage de ces modèles.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Cet article propose le cadre Annealed Co-Generation (ACG), qui remplace la modélisation conjointe de haute dimension par une approche par blocs de paires de variables via des modèles de diffusion, permettant une génération multivariée cohérente et efficace pour des applications scientifiques comme la complétion de champs d'écoulement et la conception d'anticorps.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Le papier présente RACER, une méthode de routage des requêtes vers des modèles de langage qui, en formulant le problème comme une minimisation de la taille de l'ensemble de modèles tout en contrôlant le risque d'erreur, garantit théoriquement et empiriquement une meilleure précision et une gestion rigoureuse des risques sur des données inconnues.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Le papier présente Evo, un modèle de langage d'ordre 8B qui unifie les paradigmes autoregressif et diffusionnel au sein d'un cadre évolutif latent, permettant d'adapter dynamiquement le processus de génération à l'incertitude pour atteindre des performances de pointe en raisonnement et en génération de code tout en conservant une vitesse d'inférence élevée.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Cet article propose un cadre novateur pour la prédiction d'interactions à zéro tir dans les réseaux biologiques multiplex, en combinant l'apprentissage de représentations contextuelles, la distillation de connaissances et une tokenisation de graphe sensible à la topologie pour surmonter les limites des méthodes existantes et améliorer la généralisation aux entités non vues.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Le papier présente NAT, un cadre d'apprentissage par renforcement qui optimise l'efficacité computationnelle en mettant à jour les politiques uniquement sur un sous-ensemble de tokens sélectionnés via une estimation de gradient non biaisée, permettant ainsi de réduire significativement les coûts de calcul et de mémoire tout en préservant les performances sur des tâches de raisonnement complexe.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Le papier présente GraphSkill, un cadre de codage guidé par la documentation qui améliore le raisonnement sur les graphes complexes grâce à une récupération hiérarchique et un agent d'auto-débogage, tout en introduisant un nouveau jeu de données pour l'évaluation.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Cette étude révèle que les modèles de récompense de processus (PRM) actuels sont systématiquement vulnérables aux attaques adverses en raison d'une dissociation entre la fluidité et la logique, les transformant en détecteurs de style plutôt qu'en vérificateurs de raisonnement, et propose un cadre de diagnostic et des outils pour évaluer leur robustesse avant déploiement.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Cette étude démontre que le modèle Transformer, grâce à son mécanisme d'attention, surpasse les approches traditionnelles comme ARIMA et les réseaux LSTM pour la prévision précise de la charge électrique à court terme sur les données du PJM.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Cette étude propose une revue complète des avancées méthodologiques et des applications diversifiées de Flow-GRPO, un cadre d'apprentissage par renforcement qui étend l'optimisation stratégique relative de groupe aux modèles de génération pour mieux aligner leurs sorties sur les préférences humaines.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

← Précédent Suivant →