cs.LG articles | Gist.Science

Partial Policy Gradients for RL in LLMs

Cet article propose une méthode de gradients de politique partielle pour l'apprentissage par renforcement dans les LLM, qui optimise un sous-ensemble de récompenses futures afin d'apprendre des politiques plus fiables et d'adapter différents niveaux de planification à des problèmes d'alignement conversationnel.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Ce papier démontre que les graphes de codage prédictif constituent un sur-ensemble mathématique des réseaux de neurones à propagation avant, renforçant ainsi leur pertinence dans le domaine de l'apprentissage automatique et la notion de topologie des réseaux neuronaux.

Björn van Zwol2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Cette étude démontre que l'application de perturbations d'entrée structurées, telles que le bruit de Perlin, aux réseaux de neurones graphiques permet de générer des prévisions probabilistes bien calibrées de la température de surface de la mer dans la région des îles Canaries sans coût de formation supplémentaire, tout en maintenant une compétence déterministe équivalente à celle d'un modèle unique.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Le papier présente OMEGA, une méthode de recherche apprise généralisable à n'importe quel K qui, en s'entraînant uniquement sur K=1 et en utilisant un raffinement dynamique, surpasse les méthodes existantes en termes de latence et de temps de prétraitement tout en maintenant une haute précision pour des requêtes multi-K.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo Chen2026-03-09🤖 cs.LG

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Cet article propose un cadre en deux étapes pour l'apprentissage de similarités entre écritures, combinant un apprentissage contrastif supervisé sur des alphabets inventés et une distillation non supervisée vers des scripts historiques afin de découvrir des similarités latentes sans dépendre de relations évolutives certifiées.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Random Quadratic Form on a Sphere: Synchronization by Common Noise

Cet article introduit le modèle de Forme Quadratique Aléatoire (RQF) pour démontrer que le bruit commun suffit à synchroniser les dynamiques et à expliquer le regroupement des tokens dans les transformers, même en l'absence de mécanisme d'auto-attention.

Maximilian Engel, Anna Shalova2026-03-09🤖 cs.LG

Topological descriptors of foot clearance gait dynamics improve differential diagnosis of Parkinsonism

Cette étude démontre que l'intégration de l'analyse topologique des données (TDA) appliquée aux séries temporelles de dégagement du pied, combinée à l'apprentissage automatique, améliore significativement le diagnostic différentiel entre la maladie de Parkinson idiopathique et le parkinsonisme vasculaire.

Jhonathan Barrios, Wolfram Erlhagen, Miguel F. Gago, Estela Bicho, Flora Ferreira2026-03-09🤖 cs.LG

FedSCS-XGB -- Federated Server-centric surrogate XGBoost for continual health monitoring

Cet article présente FedSCS-XGB, un protocole d'apprentissage automatique distribué basé sur XGBoost pour la surveillance continue de la santé, qui permet d'atteindre des performances quasi équivalentes à l'entraînement centralisé tout en préservant la confidentialité des données des capteurs portables.

Felix Walger, Mehdi Ejtehadi, Anke Schmeink, Diego Paez-Granados2026-03-09🤖 cs.LG

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Cet article démontre que le flot de gradient sur les modèles softmax à valeurs polarise intrinsèquement les sorties vers des solutions à faible entropie, offrant ainsi une explication théorique à des phénomènes empiriques des transformateurs tels que les « attention sinks » et les activations massives.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

Cet article propose la méthode SPPCSO, une approche d'estimation pénalisée adaptative qui intègre la régression en composantes principales et la régularisation $L_1$ pour surmonter les défis de la multicolinéarité et du bruit élevé dans les données de haute dimension, offrant ainsi une sélection de variables stable et précise.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

Ce papier présente les Environnements de Surveillance Synthétiques (SME), une suite infinie de tâches de contrôle continu aux politiques optimales connues, conçue pour permettre une analyse scientifique rigoureuse et transparente des algorithmes d'apprentissage par renforcement en isolant l'impact de facteurs environnementaux spécifiques sur leurs performances.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG

Robust support vector model based on bounded asymmetric elastic net loss for binary classification

Cet article propose le BAEN-SVM, un modèle de classification binaire robuste basé sur une nouvelle fonction de perte asymétrique et bornée, qui surpasse les SVM classiques dans les environnements bruyants tout en offrant des garanties théoriques de robustesse et de consistance.

Haiyan Du, Hu Yang2026-03-09🤖 cs.LG

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Cet article propose DeCoST, une méthode d'apprentissage en deux étapes qui découple efficacement les variables discrètes et continues pour résoudre le problème d'orientation avec fenêtres de temps et profits variables, surpassant les solveurs actuels en qualité de solution et en rapidité d'exécution.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Cette étude démontre que l'intégration de pipelines de raisonnement agentic avec récupération d'informations améliore la robustesse et le consensus entre différents modèles de langage dans le domaine de la radiologie, tout en soulignant la nécessité d'évaluations dépassant la simple précision pour garantir la fiabilité clinique.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Cet article présente une implémentation neuronale des cartes cognitives floues utilisant la dynamique de Langevin pour apprendre les causalités, inverser les solutions et fournir des critères de modification, le tout évalué sur plusieurs jeux de données.

Alexis Kafantaris2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

Le papier propose Stem, un module d'épuration plug-and-play qui améliore l'efficacité et la précision des modèles de langage à longue portée en adaptant dynamiquement la sélection des tokens selon leur position et leur impact sur la sortie, résolvant ainsi les limites des méthodes d'attention parcimonieuse existantes.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

Ce papier présente le GMM-PIELM, une méthode probabiliste qui améliore radicalement la précision et la rapidité de la résolution d'équations aux dérivées partielles raides en adaptant dynamiquement l'échantillonnage des noyaux des machines d'apprentissage extrêmes informées par la physique (PIELM) vers les zones de forte erreur numérique.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Cet article propose une méthode d'inpainting 3D basée sur des modèles de diffusion à score perpendiculaires pour éliminer les artefacts causés par les implants dentaires dans les images CBCT en modélisant les corrélations entre les projections, contrairement aux approches 2D existantes.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

Cet article présente PolaDCA, un cadre d'apprentissage relationnel innovant utilisant une attention croisée directe polarisée pour construire des graphes adaptatifs et améliorer la robustesse au bruit ainsi que la précision du diagnostic de défauts dans les machines tournantes, surpassant les méthodes GNN conventionnelles sur plusieurs jeux de données industriels.

Zongyu Shi, Laibin Zhang, Maoyin Chen2026-03-09🤖 cs.LG

← Précédent Suivant →