cs.LG articles | Gist.Science

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

Le papier présente Graph-GRPO, un cadre d'apprentissage par renforcement en ligne qui améliore les modèles de flux graphiques grâce à une expression analytique des probabilités de transition et une stratégie de raffinement local, permettant d'atteindre des performances de pointe dans la génération de graphes et l'optimisation moléculaire.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Cet article analyse la dynamique d'apprentissage des réseaux linéaires à deux couches entraînés par descente de gradient stochastique avec du bruit d'étiquettes, révélant un comportement en deux phases où le bruit favorise la transition d'un régime « paresseux » vers un régime « riche » pour améliorer la généralisation, une découverte étendue à l'algorithme SAM et validée par des expériences.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Designing Service Systems from Textual Evidence

Cet article propose l'algorithme PP-LUCB, qui combine des scores de modèles de langage et des audits humains ciblés pour identifier de manière optimale et économe la meilleure configuration de système de service malgré les biais systématiques des évaluations automatisées.

Ruicheng Ao, Hongyu Chen, Siyang Gao, Hanwei Li, David Simchi-Levi2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Cet article présente STemDist, une méthode innovante de distillation de données conçue spécifiquement pour les séries temporelles spatio-temporelles, qui comprime simultanément les dimensions spatiales et temporelles au niveau des clusters pour accélérer l'entraînement des modèles, réduire l'usage mémoire et améliorer la précision des prévisions par rapport aux méthodes existantes.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Cet article propose un cadre d'apprentissage adaptatif aux domaines pour les indicateurs de santé, intégrant un échantillonnage synchronisé par étapes de dégradation et un autoencodeur à noyaux larges avec mécanismes d'attention croisée, afin de surmonter les décalages de distribution et les limites structurelles des méthodes existantes pour améliorer la surveillance de l'état des machines.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

Cet article propose WiGS, une méthode d'apprentissage actif pour la régression qui utilise l'apprentissage par renforcement pour adapter dynamiquement le compromis entre exploration et exploitation, surpassant ainsi les approches existantes en précision et en efficacité d'étiquetage, notamment dans les régions à densité de données irrégulière.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

GGMPs: Generalized Gaussian Mixture Processes

Cet article présente les Processus de Mélange Gaussien Généralisés (GGMP), une méthode basée sur les processus gaussiens permettant une estimation de densité conditionnelle multimodale et hétéroscédastique tout en conservant une forme prédictive analytique et une mise à l'échelle efficace.

Vardaan Tekriwal, Mark D. Risser, Hengrui Luo, Marcus M. Noack2026-03-12🤖 cs.LG

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Ce papier démontre que la soustraction de la moyenne, une opération simple et efficace, élimine le biais moyen de rang un responsable de l'instabilité numérique dans l'entraînement des grands modèles de langage en faible précision (FP4), permettant ainsi de retrouver la stabilité et les performances du format BF16 sans recourir à des méthodes spectrales coûteuses.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Cet article présente une méthode d'oubli d'instances sans prompt pour les modèles de diffusion, capable d'effacer sélectivement des sorties indésirables et non spécifiables par texte, comme des visages individuels, tout en préservant l'intégrité du modèle.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Brenier Isotonic Regression

Ce papier propose la régression isotonique de Brenier, une extension de la régression isotonique aux sorties multiples en utilisant le transport optimal de Kantorovich pour imposer une cyclicité monotone via un potentiel convexe, démontrant ainsi des performances supérieures dans la calibration des probabilités et les modèles linéaires généralisés.

Han Bao, Amirreza Eshraghi, Yutong Wang2026-03-12📊 stat

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Cette étude propose un cadre d'ensemble multi-résolution basé sur le ConvLSTM qui, en exploitant diverses échelles temporelles d'entrée, atténue l'accumulation d'erreurs et améliore la précision des prévisions à long terme du comportement des murs de soutènement lors d'excavations par étapes.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Cet article présente un cadre théorique et computationnel validé par l'apprentissage non supervisé qui décrit les oscillations collectives dans les faisceaux de particules chargées intenses, démontrant l'existence de modes d'ondes de Langmuir non amortis au-dessus d'une densité critique et confirmant des prédictions clés telles que la fréquence plasma indépendante de la distribution et les oscillations de Friedel.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Cette étude présente un cadre d'apprentissage par renforcement informé par la physiologie qui, en contraignant le contrôle moteur à l'aide de synergies musculaires, améliore la fidélité biomécanique et la généralisation des simulations de locomotion humaine sur divers terrains et vitesses.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Cet article établit la convergence vers une solution interpolante et analyse le biais implicite de la descente de gradient préconditionnée dans l'espace dual pour des modèles linéaires sur-paramétrés, en démontrant notamment que les préconditionneurs isotropes reproduisent le biais de la descente de gradient standard.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

Ce papier présente JEDI, un modèle hiérarchique qui infère les dynamiques neuronales à travers diverses tâches en apprenant un espace d'embedding partagé sur les poids des réseaux de neurones récurrents, permettant ainsi d'extraire des mécanismes robustes et généralisables à partir de données expérimentales complexes.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Cet article propose un nouvel estimateur universel de la dimension intrinsèque basé sur les ratios de distances entre voisins les plus proches, qui converge vers la vraie dimension indépendamment de la distribution des données et obtient des résultats de pointe sur des benchmarks et des jeux de données réels.

Eng-Jon Ong, Omer Bobrowski, Gesine Reinert, Primoz Skraba2026-03-12🤖 cs.LG

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Le papier présente VERI-DPO, une méthode d'alignement pour la synthèse clinique qui réduit les affirmations non étayées en utilisant la vérification de revendications pour extraire des préférences et optimiser directement les modèles de langage via l'optimisation de préférence directe (DPO).

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

A New Tensor Network: Tubal Tensor Train and Its Applications

Cet article introduit la décomposition en train de tubes (TTT), un nouveau modèle de réseau tensoriel qui combine l'algèbre t-produit de la T-SVD avec la structure de cœur de faible ordre du format train tensoriel (TT) pour offrir une évolutivité de stockage linéaire et des performances améliorées dans des applications telles que la compression d'images et la complétion tensorielle.

Salman Ahmadi-Asl, Valentin Leplat, Anh-Huy Phan, Andrzej Cichocki2026-03-12🔢 math

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Cet article propose un cadre hybride léger intégrant des modèles de langage et des mécanismes d'attention graphique pour surmonter les contraintes de ressources dans le jeu des Amazones, démontrant une amélioration significative de la précision décisionnelle et une capacité à surpasser le modèle de base (GPT-4o-mini) grâce à l'apprentissage à partir de données synthétiques bruitées.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Ce papier présente IH-Challenge, un ensemble de données d'apprentissage par renforcement conçu pour améliorer la hiérarchie des instructions des modèles de langage avancés, permettant ainsi de renforcer leur robustesse face aux attaques tout en préservant leur utilité.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

← Précédent Suivant →