Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Ce papier identifie et prouve théoriquement que l'entraînement non masqué en apprentissage par renforcement supprime systématiquement les actions valides dans des états non visités en raison du partage de paramètres, un problème que l'application de masques d'action résout en éliminant ce compromis entre régularisation d'entropie et efficacité d'échantillonnage.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. SycaraWed, 11 Ma🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Cet article propose une approche basée sur les données pour prédire de manière probabiliste le facteur d'hystérésis des batteries à anodes silicium-graphite, en intégrant une harmonisation des cycles de conduite et des modèles d'apprentissage automatique pour améliorer l'estimation de l'état de charge tout en quantifiant les incertitudes.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. CremerWed, 11 Ma🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

En démontrant l'existence d'un conflit fondamental entre l'optimisation de la précision et la minimisation de l'erreur d'étalonnage dans l'apprentissage par renforcement à partir de récompenses vérifiables, cette étude propose le cadre DCPO qui découple ces objectifs pour restaurer la fiabilité des modèles de langage sans sacrifier leur précision.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le SunWed, 11 Ma🤖 cs.LG

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

The Radio-Frequency Transformer for Signal Separation

Cet article présente une méthode entièrement pilotée par les données utilisant un transformateur et une quantification scalaire finie pour séparer efficacement un signal d'intérêt d'un bruit de fond non gaussien, surpassant les techniques existantes et démontrant un potentiel d'application généralisé au-delà des signaux radiofréquences.

Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. WornellWed, 11 Ma🤖 cs.LG

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Cet article propose l'algorithme \texttt{RQRE-OVI}, une méthode d'apprentissage par renforcement multi-agent avec approximation linéaire qui calcule un équilibre de réponse quantale sensible au risque, offrant ainsi une solution unique, stable et robuste avec des garanties de convergence et un compromis contrôlé entre performance et résilience.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Ce papier propose une couche de contrôle test-temps (TTC) qui intègre la planification par contrôle optimal directement dans l'architecture des modèles de langage via un solveur LQR matériellement efficace, améliorant ainsi significativement leurs capacités de raisonnement sans nécessiter de réentraînement.

Peihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René VidalWed, 11 Ma🤖 cs.LG

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Cet article propose un cadre d'échantillonnage génératif unifié et sans gradient ciblé, fondé sur la contrainte de réversibilité temporelle et la minimisation de la divergence MMD entre trajectoires, permettant d'apprendre efficacement des distributions complexes incluant des paramètres discrets ou hybrides sans nécessiter de fonctions de score.

Lei Li, Zhen Wang, Lishuo ZhangWed, 11 Ma🤖 cs.LG