cs.LG articles | Gist.Science

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Ce papier identifie et prouve théoriquement que l'entraînement non masqué en apprentissage par renforcement supprime systématiquement les actions valides dans des états non visités en raison du partage de paramètres, un problème que l'application de masques d'action résout en éliminant ce compromis entre régularisation d'entropie et efficacité d'échantillonnage.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Cet article propose une approche basée sur les données pour prédire de manière probabiliste le facteur d'hystérésis des batteries à anodes silicium-graphite, en intégrant une harmonisation des cycles de conduite et des modèles d'apprentissage automatique pour améliorer l'estimation de l'état de charge tout en quantifiant les incertitudes.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

En démontrant l'existence d'un conflit fondamental entre l'optimisation de la précision et la minimisation de l'erreur d'étalonnage dans l'apprentissage par renforcement à partir de récompenses vérifiables, cette étude propose le cadre DCPO qui découple ces objectifs pour restaurer la fiabilité des modèles de langage sans sacrifier leur précision.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Cet article propose une méthode de régularisation basée sur la probabilité de nécessité et de suffisance (PNS), étendue au contexte de l'apprentissage incrémental de classes, pour guider l'expansion des caractéristiques et atténuer les collisions causées par des corrélations factices intra- et inter-tâches.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Cet article propose un cadre d'apprentissage innovant qui exploite le code RTL généré par des LLMs, bien que fonctionnellement imparfait, pour entraîner des modèles de représentation de netlists capables de généraliser aux circuits réels et de surmonter la pénurie de données étiquetées.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Ce papier propose GIAT, un nouveau cadre Transformer enrichi par des connaissances géologiques via un mécanisme d'attention biaisée, qui améliore considérablement la précision et l'interprétabilité de l'identification des lithologies à partir des diagraphies de puits.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Ce papier propose un nouveau protocole pour le problème des experts distribués qui améliore les bornes précédentes en réduisant la communication nécessaire pour atteindre un regret donné, en fonction du nombre d'experts, de serveurs et de la norme $\ell_p$ des pertes.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Cet article propose un cadre d'apprentissage profond généré physiquement qui modélise la dynamique du trafic macroscopique comme un processus stochastique via une équation de flux de probabilité déterministe, permettant ainsi l'estimation d'états de trafic sous forme de distributions complètes plutôt que de simples valeurs ponctuelles.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Le papier présente Latent-DARM, un cadre de communication dans l'espace latent qui combine les modèles de diffusion discrets pour la planification et les modèles autoregressifs pour l'exécution, permettant ainsi une collaboration multi-agent plus efficace et économe en tokens pour le raisonnement complexe.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Cette étude tente de reproduire le modèle BSRNN pour la séparation de sources musicales, révélant les coûts de la non-reproductibilité tout en proposant une version optimisée du modèle et en plaidant pour des pratiques de recherche plus transparentes.

Paul Magron, Romain Serizel, Constance Douwes2026-03-11🤖 cs.LG

$P^2$ GNN: Two Prototype Sets to boost GNN Performance

Le papier présente $P^2$ GNN, une méthode plug-and-play qui améliore les performances des GNN en utilisant deux ensembles de prototypes pour enrichir le contexte global et réduire le bruit dans les voisinages locaux, surpassant ainsi les modèles de production existants sur divers jeux de données.

Arihant Jain, Gundeep Arora, Anoop Saladi, Chaosheng Dong2026-03-11🤖 cs.LG

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Ce papier soutient que l'amélioration des capacités de raisonnement logique des modèles de langage crée inévitablement des voies mécanistes vers une conscience situationnelle accrue et potentiellement dangereuse, et propose le cadre RAISE ainsi que de nouvelles mesures de sécurité pour atténuer ces risques émergents.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Cet article présente une méthode entièrement pilotée par les données utilisant un transformateur et une quantification scalaire finie pour séparer efficacement un signal d'intérêt d'un bruit de fond non gaussien, surpassant les techniques existantes et démontrant un potentiel d'application généralisé au-delà des signaux radiofréquences.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell2026-03-11🤖 cs.LG

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Ce papier propose d'étudier l'émotion comme un facteur latent influençant la géométrie de l'attention et le raisonnement des grands modèles de langage, en introduisant le jeu de données AURA-QA et un cadre de régularisation émotionnelle qui améliorent la compréhension de lecture et la robustesse face aux variations de ton émotionnel.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Cet article propose l'algorithme \texttt{RQRE-OVI}, une méthode d'apprentissage par renforcement multi-agent avec approximation linéaire qui calcule un équilibre de réponse quantale sensible au risque, offrant ainsi une solution unique, stable et robuste avec des garanties de convergence et un compromis contrôlé entre performance et résilience.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. Ratliff2026-03-11🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Ce papier propose une couche de contrôle test-temps (TTC) qui intègre la planification par contrôle optimal directement dans l'architecture des modèles de langage via un solveur LQR matériellement efficace, améliorant ainsi significativement leurs capacités de raisonnement sans nécessiter de réentraînement.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal2026-03-11🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Cet article propose un cadre d'échantillonnage génératif unifié et sans gradient ciblé, fondé sur la contrainte de réversibilité temporelle et la minimisation de la divergence MMD entre trajectoires, permettant d'apprendre efficacement des distributions complexes incluant des paramètres discrets ou hybrides sans nécessiter de fonctions de score.

Lei Li, Zhen Wang, Lishuo Zhang2026-03-11🤖 cs.LG

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Ce papier propose une méthode d'apprentissage exclusive intégrant des priors d'attention sensibles à la longueur et un contrôleur de gain adaptatif pour améliorer le raisonnement des Transformers sans augmenter les coûts d'inférence.

Rian Atri2026-03-11🤖 cs.LG

← Précédent Suivant →

cs.LG