cs.LG articles | Gist.Science

Privacy Risk Predictions Based on Fundamental Understanding of Personal Data and an Evolving Threat Landscape

En analysant plus de 5 000 cas de vol d'identité, cette recherche propose un cadre de prédiction des risques de confidentialité basé sur un graphe d'écosystème d'identité et des réseaux de neurones graphiques pour estimer la probabilité que la divulgation d'un attribut d'identité entraîne celle d'autres données personnelles.

Haoran Niu, K. Suzanne Barber2026-03-04🤖 cs.LG

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

Le papier présente Shuffle-R1, un cadre d'apprentissage par renforcement efficace pour les modèles de langage multimodaux qui résout les problèmes d'effondrement des avantages et de silence des trajectoires grâce à un échantillonnage dynamique et un remaniement des données pour optimiser l'entraînement.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Nonparametric Reaction Coordinate Optimization with Histories: A Framework for Rare Event Dynamics

Ce papier présente un cadre d'optimisation non paramétrique des coordonnées de réaction intégrant l'historique des trajectoires, permettant une analyse robuste des dynamiques d'événements rares dans des systèmes complexes et des données longitudinales sans nécessiter d'échantillonnage extensif.

Polina V. Banushkina, Sergei V. Krivov2026-03-04🧬 q-bio

Learning Acrobatic Flight from Preferences

Cet article propose REC, un cadre d'apprentissage de récompense probabiliste qui utilise l'incertitude d'un ensemble de modèles pour améliorer l'apprentissage par préférences, permettant ainsi à des drones quadricoptères d'exécuter des manœuvres acrobatiques complexes avec un transfert réussi vers le monde réel sans récompenses manuelles.

Colin Merk, Ismail Geles, Jiaxu Xing + 3 more2026-03-04🤖 cs.LG

Tabular foundation model for GEOAI benchmark problems BM/AirportSoilProperties/2/2025

Cette étude démontre que le modèle de fondation TabPFN, appliqué sans entraînement aux problèmes de caractérisation géotechnique du benchmark GEOAI, surpasse les modèles bayésiens hiérarchiques traditionnels en précision et en efficacité pour la prédiction spatiale et l'imputation de données, marquant ainsi une avancée significative dans le domaine.

Taiga Saito, Yu Otake, Stephen Wu2026-03-04🤖 cs.LG

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Cet article propose le cadre DPH-RL, qui utilise des divergences f couvrant la masse (comme la KL directe) comme mécanisme de répétition pour préserver la diversité des solutions et améliorer les performances Pass@k et Pass@1 dans l'apprentissage par renforcement avec récompense vérifiable, tout en évitant l'oubli catastrophique et en réduisant les coûts de calcul.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagram

Cet article établit des bornes d'erreur rigoureuses et un diagramme de phase pour l'entraînement des ResNets profonds, démontrant que leur dynamique de convergence vers une équation différentielle ordinaire (ODE) moyenne dépend crucialement de l'échelle du résidu, permettant soit une mise à jour non linéaire des caractéristiques locales, soit un régime « paresseux » linéaire.

Lénaïc Chizat2026-03-04🤖 cs.LG

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

Le système ScaleDoc accélère l'analyse sémantique de vastes collections de documents en découplant l'exécution des prédicats en une phase de représentation hors ligne et une phase de filtrage en ligne optimisée, utilisant un modèle proxy léger et un mécanisme de cascade adaptatif pour réduire considérablement les coûts d'inférence des LLM tout en garantissant la précision.

Hengrui Zhang, Yulong Hui, Yihao Liu + 1 more2026-03-04🤖 cs.AI

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Cet article présente AIGB-Pearl, une méthode novatrice qui améliore les enchères automatiques génératives en intégrant une évaluation de trajectoires et une optimisation de politique contrainte pour permettre une exploration sûre au-delà des données statiques, surpassant ainsi les performances des approches existantes.

Zhiyu Mou, Yiqin Lv, Miao Xu + 9 more2026-03-04🤖 cs.AI

Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

Cet article propose une méthode d'estimation rapide des distances de Wasserstein pour de multiples paires de distributions en apprenant un modèle de régression linéaire sur les distances de Wasserstein tranchées (standard et relevées), surpassant les approches existantes comme Wasserstein Wormhole tout en accélérant son entraînement.

Khai Nguyen, Hai Nguyen, Nhat Ho2026-03-04📊 stat

Towards a more realistic evaluation of machine learning models for bearing fault diagnosis

Cet article propose une méthodologie d'évaluation rigoureuse et exempte de fuites de données pour le diagnostic de défauts de roulements, en mettant l'accent sur une partition des données par roulement et une formulation multi-étiquettes afin d'améliorer la généralisation et la fiabilité des modèles d'apprentissage automatique dans des applications industrielles réalistes.

João Paulo Vieira, Victor Afonso Bauler, Rodrigo Kobashikawa Rosa + 1 more2026-03-04⚡ eess

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Cet article propose un cadre théorique reliant la complexité de Kolmogorov aux Transformers en démontrant l'existence d'objectifs de longueur de description asymptotiquement optimes, tout en illustrant via une approche variationnelle à base de mélanges gaussiens que l'optimisation de ces objectifs pour améliorer la généralisation reste un défi majeur.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Cette étude théorique démontre que, bien que l'apprentissage par renforcement améliore la planification des modèles de langage en évitant les solutions erronées du fine-tuning supervisé grâce à l'exploration, les méthodes de gradient de politique souffrent d'un effondrement de la diversité, contrairement à l'apprentissage Q qui préserve cette diversité mais nécessite une conception rigoureuse des récompenses pour éviter les biais.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Cet article présente MR-GPTQ, une méthode de quantisation post-entraînement spécialisée pour les formats FP4 micro-échelles (MXFP4 et NVFP4) qui, en combinant des transformations de Hadamard par blocs et des noyaux GPU optimisés, comble l'écart entre les promesses théoriques et les performances réelles pour offrir des gains de vitesse significatifs tout en maintenant une précision compétitive.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev + 8 more2026-03-04🤖 cs.LG

CREPE: Controlling Diffusion with Replica Exchange

Ce papier présente CREPE, une méthode d'inférence pour contrôler les modèles de diffusion via l'échange de répliques, offrant une alternative flexible aux approches SMC existantes en générant des échantillons séquentiels, en préservant leur diversité et en permettant un raffinement en ligne.

Jiajun He, Paul Jeha, Peter Potaptchik + 5 more2026-03-04🤖 cs.LG

Entering the Era of Discrete Diffusion Models: A Benchmark for Schrödinger Bridges and Entropic Optimal Transport

Cet article présente le premier benchmark pour l'évaluation rigoureuse des ponts de Schrödinger sur des espaces discrets, en proposant des solutions analytiques de référence et en introduisant de nouveaux algorithmes comme DLightSB pour permettre une comparaison fiable des méthodes de transport optimal entropique.

Xavier Aramayo Carrasco, Grigoriy Ksenofontov, Aleksei Leonov + 2 more2026-03-04🤖 cs.LG

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Ce papier propose un cadre de fine-tuning pour les modèles de diffusion qui, en façonnant les distributions intermédiaires via P-GRAFT et en corrigeant le bruit inverse, améliore la génération d'images et d'autres contenus tout en offrant une meilleure efficacité théorique et empirique que les méthodes existantes.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling

Cette étude propose un réseau de neurones léger et interprétable pour la classification des signaux EEG, construit par déroulement d'un algorithme de débruitage spectral sur un graphe signé équilibré, permettant d'atteindre des performances comparables aux modèles profonds avec beaucoup moins de paramètres.

Junyi Yao, Parham Eftekhar, Gene Cheung + 3 more2026-03-04🤖 cs.LG

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

Le papier présente AdaBet, une méthode sans gradient qui sélectionne automatiquement les couches les plus importantes pour l'adaptation efficace de réseaux de neurones pré-entraînés sur des appareils contraints en analysant les caractéristiques topologiques de leurs activations, permettant ainsi d'obtenir une meilleure précision tout en réduisant considérablement la consommation mémoire sans nécessiter d'étiquettes ni de rétropropagation.

Irene Tenison, Soumyajit Chatterjee, Fahim Kawsar + 1 more2026-03-04🤖 cs.LG

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Cet article propose Cache-to-Cache (C2C), une nouvelle méthode de communication sémantique directe entre grands modèles de langage via la fusion de leurs caches KV, qui surpasse la communication textuelle traditionnelle en offrant une meilleure précision et une latence réduite.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

← Précédent Suivant →