Distributional value gradients for stochastic environments

Cet article propose une méthode appelée « Distributional Sobolev Training » qui étend l'apprentissage de la valeur distributionnelle aux espaces d'état-action continus en modélisant simultanément les distributions des valeurs et de leurs gradients via un modèle du monde conditionnel, afin de surmonter les limitations des approches existantes dans les environnements stochastiques tout en garantissant théoriquement la convergence de l'opérateur de Bellman augmenté.

Baptiste Debes, Tinne Tuytelaars2026-03-04🤖 cs.LG

Multimodal Multi-Agent Ransomware Analysis Using AutoGen

Ce papier propose un cadre d'analyse multimodale et multi-agent basé sur AutoGen pour la classification des ransomwares, qui fusionne des données statiques, dynamiques et réseau via des agents spécialisés et un mécanisme de rétroaction itératif, démontrant des performances supérieures aux méthodes traditionnelles tout en assurant une fiabilité accrue pour le déploiement réel.

Asifullah Khan, Aimen Wadood, Mubashar Iqbal + 1 more2026-03-04🤖 cs.AI

Classification Under Local Differential Privacy with Model Reversal and Model Averaging

Cet article propose une nouvelle approche pour l'apprentissage sous confidentialité différentielle locale qui traite le problème comme un transfert d'apprentissage et améliore la précision de classification grâce à des mécanismes de rétroaction bruitée, de renversement de modèle et de moyennage pondéré, tout en garantissant des bornes théoriques de risque excédentaire.

Caihong Qin, Yang Bai2026-03-04📊 stat

Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Cet article propose l'algorithme FlexDOME, la première méthode à garantir théoriquement une violation de contrainte forte quasi-constante, un regret sous-linéaire et une convergence à la dernière itération pour l'apprentissage par renforcement en ligne dans des processus de décision markoviens contraints, grâce à une optimisation primal-duale intégrant des marges de sécurité décroissantes.

Qian Zuo, Zhiyong Wang, Fengxiang He2026-03-04🤖 cs.LG

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Ce papier présente MoToRec, un cadre innovant qui résout le problème du démarrage à froid dans les systèmes de recommandation en transformant les données multimodales en tokens sémantiques discrets via un auto-encodeur variationnel quantifié résiduel régularisé par parcimonie, surpassant ainsi les méthodes existantes grâce à une représentation désenchevêtrée et une fusion robuste des signaux.

Jialin Liu, Zhaorui Zhang, Ray C. C. Cheung2026-03-04🤖 cs.LG

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage

Ce papier présente Fun-DDPS, un cadre de génération basé sur la diffusion en espace fonctionnel couplé à des opérateurs neuronaux différentiables, qui améliore considérablement la précision de la modélisation directe et inverse en stockage géologique du CO₂ en surmontant la rareté des données et en garantissant la cohérence physique des solutions.

Xin Ju, Jiachen Yao, Anima Anandkumar + 2 more2026-03-04🤖 cs.LG

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised Multimodal Entity Alignment

Cet article propose PSQE, une approche théorique et pratique qui améliore la qualité des graines pseudo-alignées pour l'alignement d'entités multimodales non supervisé en utilisant l'information multimodale et un rééchantillonnage par clustering afin de corriger les déséquilibres de couverture du graphe et d'optimiser l'apprentissage par contraste.

Yunpeng Hong, Chenyang Bu, Jie Zhang + 3 more2026-03-04🤖 cs.LG