Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Cet article propose un cadre théorique unificateur expliquant le biais de simplicité dans les réseaux de neurones comme résultant d'une dynamique de type « selle à selle », où l'apprentissage par descente de gradient progresse itérativement vers des solutions de complexité croissante en traversant des points de selle et des variétés invariantes.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Geometric Scaling of Bayesian Inference in LLMs

Cette étude démontre que les grands modèles de langage modernes conservent un substrat géométrique favorisant l'inférence bayésienne, où les représentations de la dernière couche s'organisent selon un axe dominant corrélé à l'entropie prédictive, bien que cette géométrie constitue davantage une lecture privilégiée de l'incertitude qu'un goulot d'étranglement computationnel unique.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Le cadre d'apprentissage profond interprétable PanSubNet permet de prédire directement les sous-types moléculaires cliniquement pertinents du cancer du pancréas à partir de lames histologiques standard H&E, offrant ainsi une alternative rapide, peu coûteuse et généralisable aux tests génomiques pour la stratification des patients.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Cette étude examine le phénomène de « sur-recherche » dans les modèles de langage augmentés par la recherche, propose une nouvelle métrique d'évaluation nommée Tokens Per Correctness (TPC) pour quantifier ce problème, et présente des stratégies d'atténuation ainsi qu'un nouveau jeu de données, OverSearchQA, pour améliorer l'efficacité de ces systèmes.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Cet article propose une méthode novatrice d'échantillonnage à partir de densités de Boltzmann non normalisées en utilisant des équations différentielles ordinaires de flux dérivées d'interpolants stochastiques linéaires, où des échantillonneurs de Langevin sont employés pour générer des échantillons intermédiaires et estimer le champ de vitesse, garantissant ainsi une convergence théorique et démontrant une efficacité pratique sur des distributions multimodales complexes et des tâches d'inférence bayésienne.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Cet article propose VR-SDA-A, un nouvel algorithme de descente-ascent stochastique à variance réduite intégrant une vérification de courbure par lot unique, qui surmonte la barrière de la stochasticité pour atteindre une complexité d'oracle optimale de O(ε⁻³) dans les problèmes variationnels non convexes tout en permettant une adaptation automatique du pas.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Emergence of Distortions in High-Dimensional Guided Diffusion Models

En utilisant des outils de physique statistique, cette étude caractérise l'émergence de distorsions dans les modèles de diffusion guidés comme une transition de phase liée au nombre de modes, démontrant que le guidage standard réduit la variance et proposant un nouveau calendrier de guidage avec une fenêtre de guidage négatif pour préserver la diversité tout en maintenant la séparabilité des classes.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

L'étude démontre que la qualité de génération des modèles de diffusion décentralisés est régie par l'alignement entre les experts et les données plutôt que par la stabilité numérique, établissant que router les entrées vers les experts dont la distribution d'entraînement correspond à l'état de débruitage actuel est essentiel pour obtenir de meilleurs résultats.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG