cs.LG articles | Gist.Science

Distributional Reinforcement Learning with Information Bottleneck for Uncertainty-Aware DRAM Equalization

Cet article propose un cadre d'apprentissage par renforcement distributionnel intégrant un goulot d'étranglement informationnel et une optimisation du risque conditionnel pour l'égalisation DRAM, permettant d'accélérer considérablement le processus tout en garantissant des performances optimales dans le pire des cas avec une quantification rigoureuse de l'incertitude.

Muhammad Usama, Dong Eui Chang2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Cet article présente la première caractérisation de l'équivalence distributionnelle et une méthode d'apprentissage sans hypothèses structurelles pour les modèles causaux cycliques linéaires non gaussiens avec variables latentes, en introduisant de nouvelles contraintes de rang d'arêtes pour identifier les graphes équivalents.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

Diffusion Policy through Conditional Proximal Policy Optimization

Cet article propose une méthode novatrice et efficace, nommée Diffusion Policy through Conditional Proximal Policy Optimization, qui permet d'entraîner des politiques de diffusion en apprentissage par renforcement on-policy en alignant l'itération de la politique sur le processus de diffusion, surmontant ainsi les défis de calcul de vraisemblance et permettant une génération d'actions multimodales performante.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Cet article propose la Reconstruction Contrastive par Diffusion (DCR), une méthode qui intègre des signaux contrastifs dérivés des images reconstruites dans le processus de diffusion pour surmonter les limites des encodeurs visuels CLIP et équilibrer simultanément les capacités de discrimination et de perception des détails.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Cet article démontre théoriquement que les biais inductifs des réseaux de neurones convolutifs, à savoir la localité et le partage de poids, permettent une généralisation efficace sur des données sphériques en contournant la malédiction de la dimensionnalité, contrairement aux réseaux entièrement connectés qui échouent dans ce régime.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Ce papier présente WhisperAlign, une solution combinant un découpage audio basé sur WhisperX et un affinage spécifique du domaine de Pyannote, pour améliorer la reconnaissance automatique de la parole et la diarisation dans des enregistrements bengalis longs et multi-locuteurs.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Cet article établit un lien entre la polarité quadratique et les divergences de Fenchel-Young polaires en montrant que les polarités génériques peuvent être exprimées via la polarité de Legendre déformée et manipulées par algèbre linéaire, offrant ainsi une nouvelle compréhension de la dualité de référence en géométrie de l'information et une interprétation des divergences de Bregman totales.

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama2026-03-06💻 cs

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Cet article examine les forces et faiblesses des données pour l'assistance ouverte en corps, démontrant que des modèles multimodaux fine-tunés sur des données synthétiques variées (incluant l'ancrage multimodal et l'inférence de défauts) peuvent généraliser efficacement à de nouveaux comportements utilisateurs et configurations dans des tâches d'assistance corrective.

Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath + 3 more2026-03-06🤖 cs.AI

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Ce papier propose le cadre CAD (Class-specific Augmentation based Disentanglement), une méthode novatrice utilisant des régulations intra- et inter-classe pour atténuer l'entrelacement des instances et améliorer les performances de l'apprentissage par étiquettes partielles dépendantes des instances (ID-PLL).

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Multilevel Training for Kolmogorov Arnold Networks

Cet article propose une méthode d'entraînement multiniveau pour les réseaux Kolmogorov-Arnold (KAN) qui, en exploitant leur structure de base splines via une équivalence avec des MLPs, permet d'accélérer considérablement l'optimisation et d'améliorer la précision, en particulier pour les réseaux de neurones informés par la physique.

Ben S. Southworth, Jonas A. Actor, Graham Harper + 1 more2026-03-06🔢 math

Missingness Bias Calibration in Feature Attribution Explanations

Cet article présente MCal, une méthode post-hoc légère qui corrige efficacement le biais de manque dans les explications d'attribution de caractéristiques en affinant une simple tête linéaire sur un modèle de base figé, surpassant ainsi des approches antérieures plus coûteuses sur divers benchmarks médicaux.

Shailesh Sridhar, Anton Xue, Eric Wong2026-03-06🤖 cs.LG

Why Is RLHF Alignment Shallow? A Gradient Analysis

Ce papier démontre théoriquement que l'alignement par RLHF est intrinsèquement superficiel car les gradients de sécurité s'annulent dès que le caractère nuisible d'une séquence est déterminé, et propose une nouvelle fonction objectif basée sur des pénalités de récupération pour garantir un alignement profond à toutes les positions.

Robin Young2026-03-06🤖 cs.LG

Osmosis Distillation: Model Hijacking with the Fewest Samples

Cet article présente l'attaque par distillation osmotique, une nouvelle stratégie de piratage de modèle qui exploite la vulnérabilité des ensembles de données synthétiques dans l'apprentissage par transfert pour réaliser des attaques de hijacking avec un nombre minimal d'échantillons tout en préservant l'utilité du modèle sur sa tâche principale.

Yuchen Shi, Huajie Chen, Heng Xu, Zhiquan Liu, Jialiang Shen, Chi Liu, Shuai Zhou, Tianqing Zhu, Wanlei Zhou2026-03-06🔒 cs.CR

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Le papier présente ReCouPLe, un cadre léger qui utilise des rationales textuelles pour apprendre des récompenses causalement robustes à partir de préférences, permettant ainsi une généralisation supérieure aux tâches nouvelles et une meilleure résistance aux confusions causales par rapport aux méthodes existantes.

Minjune Hwang, Yigit Korkmaz, Daniel Seita + 1 more2026-03-06🤖 cs.AI

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

En analysant une base de données inédite de 119 561 lancers professionnels, cette étude démontre qu'il est possible de prédire avec 80,4 % de précision le type de lancer à partir de la cinématique corporelle 3D extraite de vidéos monoscopiques, en identifiant la mécanique du haut du corps comme le facteur prédictif dominant tout en établissant une limite empirique de séparabilité pour les variantes de prise.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Differential Privacy in Two-Layer Networks: How DP-SGD Harms Fairness and Robustness

Cet article propose un cadre d'analyse unifié démontrant que le bruit ajouté par la différentielle privée dans les réseaux de neurones à deux couches dégrade l'apprentissage des caractéristiques, ce qui entraîne des disparités d'équité, une sensibilité accrue aux données à longue traîne et une vulnérabilité aux attaques adverses, tout en révélant les limites du pré-entraînement public suivi d'un ajustement privé.

Ruichen Xu, Kexin Chen2026-03-06🤖 cs.LG

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Le papier propose FedAFD, un cadre d'apprentissage fédéré multimodal qui améliore les performances des clients et du serveur en utilisant une stratégie d'alignement adversarial bi-niveau et une distillation d'ensemble guidée par la similarité pour surmonter les hétérogénéités de données et de modèles tout en préservant la confidentialité.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Cet article démontre que, pour des données aléatoires de haute dimension, le biais implicite de la descente de gradient sur un modèle ReLU peu profond se rapproche de la solution à norme L2 minimale avec une erreur de l'ordre de $\Theta(\sqrt{n/d})$ , grâce à une nouvelle analyse primale-duale qui établit une stabilisation rapide des motifs d'activation ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

U-Parking: Distributed UWB-Assisted Autonomous Parking System with Robust Localization and Intelligent Planning

Cette démonstration présente U-Parking, un système de stationnement autonome distribué assisté par UWB qui combine la localisation robuste, le suivi de trajectoire et la planification par des modèles de langage pour garantir un stationnement fiable en intérieur.

Yiang Wu, Qiong Wu, Pingyi Fan + 4 more2026-03-06🤖 cs.LG

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Ce papier présente VPWEM, une politique visuomotrice non markovienne qui intègre une mémoire de travail et une mémoire épisodique compressée via un mécanisme Transformer pour surmonter les limites des approches actuelles dans les tâches robotiques nécessitant une mémoire à long terme, surpassant ainsi les modèles de l'état de l'art sur plusieurs benchmarks.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

← Précédent Suivant →