cs.LG articles | Gist.Science

Distributional value gradients for stochastic environments

Cet article propose une méthode appelée « Distributional Sobolev Training » qui étend l'apprentissage de la valeur distributionnelle aux espaces d'état-action continus en modélisant simultanément les distributions des valeurs et de leurs gradients via un modèle du monde conditionnel, afin de surmonter les limitations des approches existantes dans les environnements stochastiques tout en garantissant théoriquement la convergence de l'opérateur de Bellman augmenté.

Baptiste Debes, Tinne Tuytelaars2026-03-04🤖 cs.LG

Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Ce rapport technique présente la distillation consciente de la quantification (QAD) comme une méthode robuste et efficace pour récupérer la précision des modèles de langage et vision-langage quantifiés en NVFP4, en particulier pour ceux ayant subi des pipelines d'entraînement post-traitement complexes où les méthodes traditionnelles échouent.

Meng Xin, Sweta Priyadarshi, Jingyu Xin + 26 more2026-03-04🤖 cs.LG

Multimodal Multi-Agent Ransomware Analysis Using AutoGen

Ce papier propose un cadre d'analyse multimodale et multi-agent basé sur AutoGen pour la classification des ransomwares, qui fusionne des données statiques, dynamiques et réseau via des agents spécialisés et un mécanisme de rétroaction itératif, démontrant des performances supérieures aux méthodes traditionnelles tout en assurant une fiabilité accrue pour le déploiement réel.

Asifullah Khan, Aimen Wadood, Mubashar Iqbal + 1 more2026-03-04🤖 cs.AI

Learning Contextual Runtime Monitors for Safe AI-Based Autonomy

Cet article présente un cadre novateur pour l'apprentissage de moniteurs d'exécution contextuels qui sélectionnent dynamiquement le contrôleur le plus adapté au sein d'ensembles de contrôle IA, garantissant ainsi la sécurité et améliorant les performances dans des environnements dynamiques grâce à des techniques de bandits contextuels.

Alejandro Luque-Cerpa, Mengyuan Wang, Emil Carlsson + 3 more2026-03-04⚡ eess

On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks

En analysant 52 modèles préentraînés, cette étude démontre que la dimension effective, une métrique géométrique non supervisée, prédit fortement la performance des réseaux de neurones en fournissant des informations prédictives et causales indépendantes des étiquettes.

Sumit Yadav2026-03-04🤖 cs.LG

SwiftRepertoire: Few-Shot Immune-Signature Synthesis via Dynamic Kernel Codes

SwiftRepertoire est un cadre d'apprentissage peu échantillonné qui synthétise des modules d'adaptation compacts à partir d'un dictionnaire de prototypes pour permettre l'adaptation immédiate et interprétable des modèles de répertoires de récepteurs T à de nouvelles tâches cliniques avec très peu de données étiquetées.

Rong Fu, Muge Qi, Yang Li + 11 more2026-03-04🤖 cs.LG

Contextual Drag: How Errors in the Context Affect LLM Reasoning

L'article révèle que la présence d'erreurs passées dans le contexte des grands modèles de langage crée un « drag contextuel » qui biaise leurs raisonnements futurs vers des erreurs structurellement similaires, provoquant une dégradation des performances que ni la vérification ni les stratégies d'atténuation actuelles ne parviennent entièrement à corriger.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Classification Under Local Differential Privacy with Model Reversal and Model Averaging

Cet article propose une nouvelle approche pour l'apprentissage sous confidentialité différentielle locale qui traite le problème comme un transfert d'apprentissage et améliore la précision de classification grâce à des mécanismes de rétroaction bruitée, de renversement de modèle et de moyennage pondéré, tout en garantissant des bornes théoriques de risque excédentaire.

Caihong Qin, Yang Bai2026-03-04📊 stat

Linear Model Extraction via Factual and Counterfactual Queries

Cet article examine comment l'utilisation de requêtes factuelles, contrefactuelles et contrefactuelles robustes permet d'extraire les paramètres de modèles linéaires, démontrant que le nombre de requêtes nécessaires dépend fortement du type de distance utilisé et de la robustesse appliquée.

Daan Otto, Jannis Kurtz, Dick den Hertog + 1 more2026-03-04🤖 cs.LG

Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Cet article propose l'algorithme FlexDOME, la première méthode à garantir théoriquement une violation de contrainte forte quasi-constante, un regret sous-linéaire et une convergence à la dernière itération pour l'apprentissage par renforcement en ligne dans des processus de décision markoviens contraints, grâce à une optimisation primal-duale intégrant des marges de sécurité décroissantes.

Qian Zuo, Zhiyong Wang, Fengxiang He2026-03-04🤖 cs.LG

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Ce papier présente MoToRec, un cadre innovant qui résout le problème du démarrage à froid dans les systèmes de recommandation en transformant les données multimodales en tokens sémantiques discrets via un auto-encodeur variationnel quantifié résiduel régularisé par parcimonie, surpassant ainsi les méthodes existantes grâce à une représentation désenchevêtrée et une fusion robuste des signaux.

Jialin Liu, Zhaorui Zhang, Ray C. C. Cheung2026-03-04🤖 cs.LG

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage

Ce papier présente Fun-DDPS, un cadre de génération basé sur la diffusion en espace fonctionnel couplé à des opérateurs neuronaux différentiables, qui améliore considérablement la précision de la modélisation directe et inverse en stockage géologique du CO₂ en surmontant la rareté des données et en garantissant la cohérence physique des solutions.

Xin Ju, Jiachen Yao, Anima Anandkumar + 2 more2026-03-04🤖 cs.LG

A Penalty Approach for Differentiation Through Black-Box Quadratic Programming Solvers

Cet article présente dXPP, un cadre de différenciation basé sur une méthode de pénalité qui permet de contourner les limitations des approches KKT en découplant la résolution de programmes quadratiques de leur différenciation, offrant ainsi une meilleure efficacité computationnelle et une robustesse accrue pour les problèmes à grande échelle.

Yuxuan Linghu, Zhiyuan Liu, Qi Deng2026-03-04🤖 cs.LG

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Cette étude démontre que les optimiseurs à base de momentum comme Adam et Muon, lorsqu'ils sont appliqués à des réseaux de neurones homogènes lisses, suivent des trajectoires de descente de pente normalisée qui les biaisent implicitement vers la maximisation de marges spécifiques selon la norme choisie.

Eitan Gronich, Gal Vardi2026-03-04📊 stat

Selecting Optimal Variable Order in Autoregressive Ising Models

Cet article propose d'optimiser l'ordre des variables dans les modèles d'Ising autorégressifs en apprenant la structure du champ aléatoire de Markov sous-jacent, ce qui permet de réduire la complexité conditionnelle et d'améliorer la fidélité des échantillons générés par rapport aux ordonnancements naïfs.

Shiba Biswal, Marc Vuffray, Andrey Y. Lokhov2026-03-04📊 stat

A Researcher's Guide to Empirical Risk Minimization

Ce guide propose une méthodologie modulaire pour établir des bornes de regret à haute probabilité en minimisation du risque empirique, en s'appuyant sur une recette en trois étapes pour les problèmes standards et en étendant ces résultats aux cadres avec composantes de nuisance, y compris le régime d'échantillonnage in-sample.

Lars van der Laan2026-03-04📊 stat

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

SigmaQuant est un cadre de quantification hétérogène adaptatif conçu pour optimiser l'équilibre entre précision et utilisation des ressources lors de l'inférence de réseaux de neurones profonds sur des dispositifs embarqués, sans nécessiter de recherche exhaustive dans l'espace de conception.

Qunyou Liu, Pengbo Yu, Marina Zapater + 1 more2026-03-04🤖 cs.LG

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised Multimodal Entity Alignment

Cet article propose PSQE, une approche théorique et pratique qui améliore la qualité des graines pseudo-alignées pour l'alignement d'entités multimodales non supervisé en utilisant l'information multimodale et un rééchantillonnage par clustering afin de corriger les déséquilibres de couverture du graphe et d'optimiser l'apprentissage par contraste.

Yunpeng Hong, Chenyang Bu, Jie Zhang + 3 more2026-03-04🤖 cs.LG

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Ce papier propose un système de mémoire neuronale généralisé qui permet des mises à jour flexibles et sélectives basées sur des instructions en langage naturel, offrant ainsi un contrôle accru sur ce que les modèles apprennent dans des environnements non stationnaires.

Max S. Bennett, Thomas P. Zollo, Richard Zemel2026-03-04🤖 cs.LG

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Le papier présente FlexGuard, un modérateur de contenu LLM basé sur un score de risque continu et calibré qui surpasse les approches binaires existantes en offrant une robustesse accrue face aux variations de sévérité des règles de modération, grâce à l'introduction du benchmark FlexBench et à une optimisation d'alignement des risques.

Zhihao Ding, Jinming Li, Ze Lu + 1 more2026-03-04🤖 cs.AI

← Précédent Suivant →