cs.LG articles | Gist.Science

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Cet article démontre que l'entraînement par renforcement avec des récompenses de processus permet de surmonter la barrière de support du modèle de base et d'éviter la malédiction de la dimensionnalité, contrairement aux récompenses de résultats qui peuvent nécessiter un nombre exponentiel de requêtes pour dépasser le support initial.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Le papier présente Chart-RL, une méthode d'apprentissage par renforcement utilisant des récompenses mathématiquement vérifiables qui améliore significativement la compréhension des graphiques par les modèles vision-langage, démontrant que la complexité des tâches d'entraînement est plus déterminante que le volume de données pour obtenir une généralisation robuste et des capacités de raisonnement transférables.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Cette étude propose une méthode d'apprentissage par imitation qui, soutenue par une analyse théorique des cycles limites et des cartes de retour de Poincaré, permet d'entraîner des politiques de locomotion pour quadrupèdes robustes à partir de quelques secondes de démonstration uniquement en mode hors ligne.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Cet article propose un cadre d'oubli machine basé sur la méthode SISA pour la localisation des courts-circuits entre spires dans les transformateurs de puissance, permettant de supprimer efficacement l'influence des données empoisonnées en réentraînant uniquement les sous-ensembles affectés plutôt que le modèle entier, ce qui réduit considérablement le temps de calcul tout en maintenant une précision de diagnostic équivalente.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Cette étude présente un cadre d'apprentissage par renforcement sur graphes intégrant l'analyse topologique des données pour optimiser la reconfiguration et le délestage des réseaux de distribution d'électricité, améliorant ainsi significativement leur résilience face aux pannes et aux cyberattaques.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Ce papier propose le cadre CUOT et le modèle CUOTM pour surmonter la sensibilité aux outliers des cartes de transport optimal conditionnel classique en assouplissant les contraintes d'appariement des distributions via des pénalités de divergence de Csiszár, tout en préservant rigoureusement les marginales conditionnelles.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Ce papier propose NePPO, une nouvelle méthode d'optimisation de politique pour l'apprentissage par renforcement multi-agent dans des jeux à somme générale, qui apprend une fonction de potentiel commune pour approximer un équilibre de Nash et surpasse les approches existantes comme MAPPO et MADDPG.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Ce papier présente Diffusion Controller (DiffCon), un cadre unifié de théorie du contrôle qui reformule l'échantillonnage de diffusion inversée comme un problème de contrôle stochastique, permettant de développer des méthodes d'apprentissage par renforcement et une paramétrisation efficace par réseau secondaire pour améliorer l'alignement des préférences et l'efficacité de l'adaptation des modèles de diffusion préentraînés.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Cet article démontre que la régulation de l'équité basée uniquement sur l'absence d'effet moyen de traitement (ATE) peut masquer des inégalités causales significatives via un problème d'optimisation linéaire, soulignant la nécessité de passer d'une régulation au niveau des décisions à une régulation au niveau des modèles pour détecter ces biais cachés.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Cet article propose une méthode adaptative utilisant des modèles de langage multimodaux pour découvrir rapidement des attributs audio interprétables et améliorer la classification en ressources limitées, surpassant les approches humaines traditionnelles en efficacité et en rapidité.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Cet article propose un nouveau problème d'apprentissage en ligne appelé « Combinatorial Allocation Bandits » (CAB) pour les plateformes de mise en correspondance, qui vise à maximiser la satisfaction globale des utilisateurs plutôt que le simple nombre de correspondances, en développant et en évaluant des algorithmes basés sur la borne de confiance supérieure et l'échantillonnage de Thompson.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Ce papier présente Self-MOA, un cadre entièrement automatisé qui aligne les petits modèles de langage sur des objectifs de sécurité et d'utilité grâce à une supervision faible générée dynamiquement, réduisant ainsi la dépendance aux données annotées par des humains tout en améliorant la sécurité de 12,41 %.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Ce papier propose un cadre méthodologique pour extrapoler les effets de traitement dans le temps en utilisant des essais répétés ou des bras de traitement communs, permettant d'estimer l'effet moyen de traitement transporté (TATE) grâce à des estimateurs doublement robustes et semi-paramétriquement efficaces.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Le papier présente RESCHED, un cadre d'apprentissage par renforcement profond minimaliste basé sur l'architecture Transformer qui, en réduisant l'espace d'état à quatre caractéristiques essentielles et en éliminant les dépendances historiques, surpasse les méthodes existantes pour résoudre le problème d'ordonnancement flexible d'atelier tout en assurant une forte généralisation à d'autres variantes d'ordonnancement.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Cet article propose un cadre fédéré adaptatif aux ressources qui combine un finetuning différentiellement privé pour les clients puissants et un mécanisme de vote léger pour les clients faibles, afin de générer des données synthétiques préservant la vie privée et alignées sur la distribution globale pour la génération de texte.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Ce papier présente Artoo, un système de communication acoustique robot-à-robot optimisé de bout en bout qui remplace le traitement du signal traditionnel par des réseaux de neurones co-entraînés pour maximiser la précision de décodage dans des environnements bruyants tout en restant léger et rapide pour une intégration sur des plateformes robotiques aux ressources limitées.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

Cet article propose l'IMD-AD, une nouvelle méthode d'anomalie profonde interprétable qui utilise un objectif de marge maximale et un petit nombre d'anomalies étiquetées pour éviter l'effondrement de l'hypersphère, apprendre les paramètres du modèle de manière end-to-end et surpasser les méthodes de l'état de l'art sur divers benchmarks.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Cet article propose une distillation en ligne consciente de l'entropie qui améliore la diversité de génération et l'alignement élève-enseignant en adaptant dynamiquement l'objectif de divergence KL en fonction de l'incertitude du modèle enseignant, ce qui se traduit par des gains significatifs de performance sur des benchmarks de raisonnement mathématique.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Ce papier propose VLN-Cache, un cadre de mise en cache de tokens qui améliore l'efficacité de l'inférence des modèles de navigation vision-langage en adaptant dynamiquement la réutilisation des tokens aux changements de vue et d'importance sémantique, permettant ainsi une accélération significative sans compromettre les performances de navigation.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Le papier présente Dreamer-CDP, une méthode qui améliore les modèles du monde sans reconstruction en utilisant un prédicteur de type JEPA sur des représentations continues et déterministes, atteignant ainsi des performances équivalentes à Dreamer sur l'environnement Crafter.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

← Précédent Suivant →