cs.LG articles | Gist.Science

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Cet article démontre que le flot de gradient sur les modèles softmax à valeurs polarise intrinsèquement les sorties vers des solutions à faible entropie, offrant ainsi une explication théorique à des phénomènes empiriques des transformateurs tels que les « attention sinks » et les activations massives.

Aditya Varre, Mark Rofin, Nicolas Flammarion2026-03-09🤖 cs.LG

SPPCSO: Adaptive Penalized Estimation Method for High-Dimensional Correlated Data

Cet article propose la méthode SPPCSO, une approche d'estimation pénalisée adaptative qui intègre la régression en composantes principales et la régularisation $L_1$ pour surmonter les défis de la multicolinéarité et du bruit élevé dans les données de haute dimension, offrant ainsi une sélection de variables stable et précise.

Ying Hu, Hu Yang2026-03-09🤖 cs.LG

Synthetic Monitoring Environments for Reinforcement Learning

Ce papier présente les Environnements de Surveillance Synthétiques (SME), une suite infinie de tâches de contrôle continu aux politiques optimales connues, conçue pour permettre une analyse scientifique rigoureuse et transparente des algorithmes d'apprentissage par renforcement en isolant l'impact de facteurs environnementaux spécifiques sur leurs performances.

Leonard Pleiss, Carolin Schmidt, Maximilian Schiffer2026-03-09🤖 cs.LG

Robust support vector model based on bounded asymmetric elastic net loss for binary classification

Cet article propose le BAEN-SVM, un modèle de classification binaire robuste basé sur une nouvelle fonction de perte asymétrique et bornée, qui surpasse les SVM classiques dans les environnements bruyants tout en offrant des garanties théoriques de robustesse et de consistance.

Haiyan Du, Hu Yang2026-03-09🤖 cs.LG

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Cet article propose DeCoST, une méthode d'apprentissage en deux étapes qui découple efficacement les variables discrètes et continues pour résoudre le problème d'orientation avec fenêtres de temps et profits variables, surpassant les solveurs actuels en qualité de solution et en rapidité d'exécution.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Cette étude démontre que l'intégration de pipelines de raisonnement agentic avec récupération d'informations améliore la robustesse et le consensus entre différents modèles de langage dans le domaine de la radiologie, tout en soulignant la nécessité d'évaluations dépassant la simple précision pour garantir la fiabilité clinique.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Cet article présente une implémentation neuronale des cartes cognitives floues utilisant la dynamique de Langevin pour apprendre les causalités, inverser les solutions et fournir des critères de modification, le tout évalué sur plusieurs jeux de données.

Alexis Kafantaris2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

Le papier propose Stem, un module d'épuration plug-and-play qui améliore l'efficacité et la précision des modèles de langage à longue portée en adaptant dynamiquement la sélection des tokens selon leur position et leur impact sur la sortie, résolvant ainsi les limites des méthodes d'attention parcimonieuse existantes.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

Learning Where the Physics Is: Probabilistic Adaptive Sampling for Stiff PDEs

Ce papier présente le GMM-PIELM, une méthode probabiliste qui améliore radicalement la précision et la rapidité de la résolution d'équations aux dérivées partielles raides en adaptant dynamiquement l'échantillonnage des noyaux des machines d'apprentissage extrêmes informées par la physique (PIELM) vers les zones de forte erreur numérique.

Akshay Govind Srinivasan, Balaji Srinivasan2026-03-09🤖 cs.AI

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Cet article propose une méthode d'inpainting 3D basée sur des modèles de diffusion à score perpendiculaires pour éliminer les artefacts causés par les implants dentaires dans les images CBCT en modélisant les corrélations entre les projections, contrairement aux approches 2D existantes.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

Polarized Direct Cross-Attention Message Passing in GNNs for Machinery Fault Diagnosis

Cet article présente PolaDCA, un cadre d'apprentissage relationnel innovant utilisant une attention croisée directe polarisée pour construire des graphes adaptatifs et améliorer la robustesse au bruit ainsi que la précision du diagnostic de défauts dans les machines tournantes, surpassant les méthodes GNN conventionnelles sur plusieurs jeux de données industriels.

Zongyu Shi, Laibin Zhang, Maoyin Chen2026-03-09🤖 cs.LG

From Entropy to Calibrated Uncertainty: Training Language Models to Reason About Uncertainty

Cet article propose un pipeline en trois étapes pour entraîner les grands modèles de langage à générer des estimations d'incertitude calibrées et interprétables de manière efficace, en combinant des scores d'entropie, un étalonnage par mise à l'échelle de Platt et un apprentissage par renforcement.

Azza Jenane, Nassim Walha, Lukas Kuhn, Florian Buettner2026-03-09🤖 cs.AI

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Le papier présente SAHOO, un cadre pratique qui garantit l'alignement lors de l'amélioration récursive de soi en surveillant la dérive des objectifs grâce à trois mécanismes de sécurité, tout en démontrant des gains de performance significatifs dans des tâches de codage et de raisonnement sans compromettre la sécurité.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

AI End-to-End Radiation Treatment Planning Under One Second

Le papier présente AIRT, un cadre d'apprentissage profond de bout en bout capable de générer des plans de radiothérapie VMAT pour le cancer de la prostate en moins d'une seconde, avec une qualité non inférieure aux plans de référence tout en réduisant considérablement le temps de planification.

Simon Arberet, Riqiang Gao, Martin Kraus, Florin C. Ghesu, Wilko Verbakel, Mamadou Diallo, Anthony Magliari, Venkatesan Karuppusamy, Sushil Beriwal, REQUITE Consortium, Ali Kamen, Dorin Comaniciu2026-03-09🤖 cs.AI

MoEless: Efficient MoE LLM Serving via Serverless Computing

Le papier présente MoEless, un cadre de service sans serveur pour les modèles de langage à mélange d'experts (MoE) qui résout les déséquilibres de charge et réduit la latence d'inférence ainsi que les coûts grâce à des prédictions de charge dynamiques et une mise à l'échelle optimisée des experts.

Hanfei Yu, Bei Ouyang, Shwai He, Ang Li, Hao Wang2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Le papier présente le DC-DiT, un modèle de diffusion Transformer qui améliore l'efficacité et la qualité de la génération d'images en adaptant dynamiquement le nombre de tokens utilisés selon la complexité visuelle des régions et l'étape du processus de débruitage, surpassant ainsi les architectures DiT classiques tout en permettant un réentraînement minimal.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

Frequency-Separable Hamiltonian Neural Network for Multi-Timescale Dynamics

Cet article présente le FS-HNN, une architecture de réseau de neurones qui décompose l'hamiltonien en modes rapides et lents entraînés sur différentes échelles de temps, permettant ainsi de capturer avec succès la dynamique multi-échelles et d'améliorer l'extrapolation à long terme pour des systèmes gouvernés par des EDO et des EDP.

Yaojun Li, Yulong Yang, Christine Allen-Blanchette2026-03-09🤖 cs.LG

Tiny, Hardware-Independent, Compression-based Classification

Cet article propose une méthode de classification basée sur la distance de compression normalisée, qui, bien que n'étant pas une métrique formelle, permet d'entraîner des modèles précis et légers directement sur les appareils clients en utilisant uniquement les données de l'utilisateur, résolvant ainsi les problèmes de confidentialité et de contraintes matérielles.

Charles Meyers, Aaron MacSween, Erik Elmroth, Tommy Löfstedt2026-03-09🤖 cs.LG

CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing

Ce papier présente CLAIRE, un cadre d'apprentissage profond hybride pour la détection de défauts dans la fabrication intelligente, qui combine un autoencodeur pour l'apprentissage de représentations latentes compactes et une classification supervisée, le tout renforcé par une interprétabilité basée sur la théorie des jeux pour identifier les caractéristiques clés.

Mohammadhossein Ghahramani, Mengchu Zhou2026-03-09🤖 cs.AI

← Précédent Suivant →