cs.LG articles | Gist.Science

Unifying On- and Off-Policy Variance Reduction Methods

Ce papier établit une équivalence formelle entre les méthodes de réduction de variance utilisées dans les tests A/B en ligne et l'évaluation hors politique, démontrant que l'estimateur de différence de moyennes correspond à un score de propension inverse avec un variate de contrôle optimal, et que les ajustements par régression sont structurellement équivalents à l'estimation doublement robuste.

Olivier Jeunen2026-03-10🤖 cs.LG

Leaderboard Incentives: Model Rankings under Strategic Post-Training

Cette étude démontre que les benchmarks actuels créent des incitations stratégiques menant à l'absence d'équilibre de Nash, mais prouve qu'un protocole d'évaluation « tune-before-test » permet d'établir un équilibre unique classant les modèles selon leur qualité réelle.

Yatong Chen, Guanhua Zhang, Moritz Hardt2026-03-10🤖 cs.LG

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Cet article propose un nouvel algorithme d'optimisation fondé sur le calcul fractionnaire, utilisant l'intégrale de Weyl pondérée pour remplacer les mises à jour de poids markoviennes par une mémoire historique dynamique, ce qui améliore considérablement la robustesse et les performances sur des données déséquilibrées comme la détection de fraude financière.

Gustavo A. Dorrego2026-03-10🤖 cs.LG

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Ce papier présente ToCoRL, un cadre d'apprentissage par renforcement qui exploite la plasticité comportementale intrinsèque des grands modèles de langage via la génération conditionnelle par tokens pour stabiliser des modes de réponse adaptatifs sans dégrader leurs capacités.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Cet article propose une méthode de normalisation des valeurs invariante à l'échelle (SVN) pour stabiliser l'apprentissage par renforcement multi-agents hors ligne et établit une recette pratique permettant de débloquer son plein potentiel.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Geometrically Constrained Outlier Synthesis

Ce papier présente GCOS, un cadre de régularisation qui améliore la détection des données hors distribution en synthétisant des échantillons virtuels dans l'espace des caractéristiques selon une structure géométrique contrainte, combinant ainsi une enveloppe adaptative inspirée de la conformité et un objectif de régularisation par contraste pour surpasser les méthodes actuelles.

Daniil Karzanov, Marcin Detyniecki2026-03-10🤖 cs.LG

Meta-RL with Shared Representations Enables Fast Adaptation in Energy Systems

Cet article présente un cadre d'apprentissage par renforcement méta (Meta-RL) innovant intégrant une architecture acteur-critic hybride et des mécanismes de partage de représentations pour optimiser l'adaptation rapide et l'efficacité des échantillons dans les systèmes de gestion de l'énergie des bâtiments.

Théo Zangato, Aomar Osmani, Pegah Alizadeh2026-03-10🤖 cs.LG

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Ce papier présente SYNAPSE, un cadre d'analyse systématique et sans réentraînement qui permet d'expliquer et de tester la robustesse interne des modèles Transformer en identifiant des motifs de redondance fonctionnelle et des vulnérabilités spécifiques aux classes à travers divers domaines.

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán2026-03-10🤖 cs.LG

IronEngine: Towards General AI Assistant

Ce papier présente IronEngine, une plateforme d'assistant IA généraliste dotée d'un noyau d'orchestration unifié et d'une architecture en trois phases (discussion, commutation de modèle, exécution) qui sépare la planification de l'action, offrant une gestion hiérarchique de la mémoire, une adaptabilité aux modèles et des performances supérieures dans l'exécution de tâches complexes.

Xi Mo2026-03-10🤖 cs.LG

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Cet article propose GRACE, un cadre d'apprentissage incrémental de classe adaptatif qui équilibre plasticité et stabilité en alternant cycles d'expansion, d'évaluation de la saturation et de compression du modèle, permettant ainsi d'atteindre des performances de pointe tout en réduisant l'empreinte mémoire de 73 % par rapport aux méthodes purement expansives.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Cette étude de faisabilité prospective démontre qu'un système d'IA conversationnelle (AMIE) peut mener des entretiens cliniques en toute sécurité dans un cabinet de soins primaires, générant des diagnostics différentiels et des plans de prise en charge de qualité comparable à ceux des médecins, tout en étant bien accueilli par les patients et les cliniciens.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster est une méthode novatrice de gestion de cache KV qui améliore l'inférence des grands modèles de langage sur des contextes longs en utilisant un découpage sensible aux limites et un index hiérarchique récursif pour réduire la complexité de recherche de logarithmique, offrant ainsi une accélération jusqu'à 3,6 fois avec une perte de performance négligeable.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Cette étude révèle que la détection des dérives d'observation par les agents d'apprentissage par renforcement repose sur un seuil critique universel, mais que l'incapacité des détecteurs à identifier certaines dérives sinusoïdales ou à prévenir l'effondrement dans des environnements fragiles démontre que ces limites sont déterminées par l'interaction dynamique entre le bruit, le détecteur et la structure de l'environnement plutôt que par la seule sensibilité du modèle.

Zhe Hong2026-03-10🤖 cs.LG

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Cet article présente un algorithme de suivi maritime adaptatif par filtre particulaire qui fusionne des données caméra et LiDAR en sélectionnant dynamiquement le capteur le plus informatif via une politique de réduction d'entropie, validé par des essais réels à Chypre démontrant une meilleure résilience et un compromis optimal entre précision et continuité.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

Data-Driven Priors for Uncertainty-Aware Deterioration Risk Prediction with Multimodal Data

Cet article présente MedCertAIn, un cadre d'inférence bayésienne qui améliore la prédiction des risques d'hospitalisation et l'estimation de l'incertitude en fusionnant des données multimodales (séries temporelles cliniques et radiographies thoraciques) via des priors appris à partir des données pour des applications cliniques plus robustes.

L. Julián Lechuga López, Tim G. J. Rudner, Farah E. Shamout2026-03-10🤖 cs.LG

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Ce papier propose une approche unifiée pour optimiser le raisonnement des modèles de langage en reformulant le problème sous l'angle du goulot d'information conditionnel (CIB), ce qui permet de compresser les chaînes de pensée de manière sémantique pour réduire les coûts d'inférence tout en préservant la logique et la précision.

Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi2026-03-10🤖 cs.LG

MUSA-PINN: Multi-scale Weak-form Physics-Informed Neural Networks for Fluid Flow in Complex Geometries

L'article propose MUSA-PINN, une méthode de réseaux de neurones informés par la physique à forme faible multi-échelle qui reformule les lois de conservation sous forme d'intégrales sur des volumes de contrôle hiérarchiques pour surmonter les pathologies de convergence et améliorer la précision de la simulation des écoulements fluides dans des géométries complexes comme les surfaces minimales triplement périodiques.

Weizheng Zhang, Xunjie Xie, Hao Pan, Xiaowei Duan, Bingteng Sun, Qiang Du, Lin lu2026-03-10🤖 cs.LG

Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning

Cet article propose un cadre d'apprentissage par renforcement basé sur un modèle de type Dyna intégrant des réseaux de neurones lagrangiens pour garantir le respect des lois physiques, démontrant ainsi une meilleure efficacité et une convergence plus rapide grâce à des optimiseurs basés sur l'estimation d'état.

Shreya Das, Kundan Kumar, Muhammad Iqbal, Outi Savolainen, Dominik Baumann, Laura Ruotsalainen, Simo Särkkä2026-03-10🤖 cs.LG

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Le papier présente STRIDE, un cadre d'apprentissage dynamique qui sépare la mécanique rigide conservatrice modélisée par un réseau de neurones lagrangien des effets d'interaction stochastiques capturés par l'appariement de flux conditionnel, afin d'améliorer la précision des prédictions et la fiabilité du contrôle pour les robots opérant dans des environnements incertains.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Cet article présente X-AVDT, un détecteur de deepfakes robuste qui exploite les mécanismes d'attention croisée audio-visuelle internes aux générateurs via l'inversion DDIM, et introduit le nouveau jeu de données multimodal MMDF pour améliorer la détection et la généralisation face aux synthèses génératives émergentes.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

← Précédent Suivant →