Distributional Reinforcement Learning with Information Bottleneck for Uncertainty-Aware DRAM Equalization

Cet article propose un cadre d'apprentissage par renforcement distributionnel intégrant un goulot d'étranglement informationnel et une optimisation du risque conditionnel pour l'égalisation DRAM, permettant d'accélérer considérablement le processus tout en garantissant des performances optimales dans le pire des cas avec une quantification rigoureuse de l'incertitude.

Muhammad Usama, Dong Eui Chang2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Cet article présente la première caractérisation de l'équivalence distributionnelle et une méthode d'apprentissage sans hypothèses structurelles pour les modèles causaux cycliques linéaires non gaussiens avec variables latentes, en introduisant de nouvelles contraintes de rang d'arêtes pour identifier les graphes équivalents.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

Diffusion Policy through Conditional Proximal Policy Optimization

Cet article propose une méthode novatrice et efficace, nommée Diffusion Policy through Conditional Proximal Policy Optimization, qui permet d'entraîner des politiques de diffusion en apprentissage par renforcement on-policy en alignant l'itération de la politique sur le processus de diffusion, surmontant ainsi les défis de calcul de vraisemblance et permettant une génération d'actions multimodales performante.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Cet article démontre théoriquement que les biais inductifs des réseaux de neurones convolutifs, à savoir la localité et le partage de poids, permettent une généralisation efficace sur des données sphériques en contournant la malédiction de la dimensionnalité, contrairement aux réseaux entièrement connectés qui échouent dans ce régime.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Cet article établit un lien entre la polarité quadratique et les divergences de Fenchel-Young polaires en montrant que les polarités génériques peuvent être exprimées via la polarité de Legendre déformée et manipulées par algèbre linéaire, offrant ainsi une nouvelle compréhension de la dualité de référence en géométrie de l'information et une interprétation des divergences de Bregman totales.

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama2026-03-06💻 cs

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Cet article examine les forces et faiblesses des données pour l'assistance ouverte en corps, démontrant que des modèles multimodaux fine-tunés sur des données synthétiques variées (incluant l'ancrage multimodal et l'inférence de défauts) peuvent généraliser efficacement à de nouveaux comportements utilisateurs et configurations dans des tâches d'assistance corrective.

Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath + 3 more2026-03-06🤖 cs.AI

Osmosis Distillation: Model Hijacking with the Fewest Samples

Cet article présente l'attaque par distillation osmotique, une nouvelle stratégie de piratage de modèle qui exploite la vulnérabilité des ensembles de données synthétiques dans l'apprentissage par transfert pour réaliser des attaques de hijacking avec un nombre minimal d'échantillons tout en préservant l'utilité du modèle sur sa tâche principale.

Yuchen Shi, Huajie Chen, Heng Xu, Zhiquan Liu, Jialiang Shen, Chi Liu, Shuai Zhou, Tianqing Zhu, Wanlei Zhou2026-03-06🔒 cs.CR

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

En analysant une base de données inédite de 119 561 lancers professionnels, cette étude démontre qu'il est possible de prédire avec 80,4 % de précision le type de lancer à partir de la cinématique corporelle 3D extraite de vidéos monoscopiques, en identifiant la mécanique du haut du corps comme le facteur prédictif dominant tout en établissant une limite empirique de séparabilité pour les variantes de prise.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Differential Privacy in Two-Layer Networks: How DP-SGD Harms Fairness and Robustness

Cet article propose un cadre d'analyse unifié démontrant que le bruit ajouté par la différentielle privée dans les réseaux de neurones à deux couches dégrade l'apprentissage des caractéristiques, ce qui entraîne des disparités d'équité, une sensibilité accrue aux données à longue traîne et une vulnérabilité aux attaques adverses, tout en révélant les limites du pré-entraînement public suivi d'un ajustement privé.

Ruichen Xu, Kexin Chen2026-03-06🤖 cs.LG

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Cet article démontre que, pour des données aléatoires de haute dimension, le biais implicite de la descente de gradient sur un modèle ReLU peu profond se rapproche de la solution à norme L2 minimale avec une erreur de l'ordre de Θ(n/d)\Theta(\sqrt{n/d}), grâce à une nouvelle analyse primale-duale qui établit une stabilisation rapide des motifs d'activation ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Ce papier présente VPWEM, une politique visuomotrice non markovienne qui intègre une mémoire de travail et une mémoire épisodique compressée via un mécanisme Transformer pour surmonter les limites des approches actuelles dans les tâches robotiques nécessitant une mémoire à long terme, surpassant ainsi les modèles de l'état de l'art sur plusieurs benchmarks.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI