cs.LG articles | Gist.Science

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

Le papier présente NMIRacle, un cadre génératif à deux étapes qui combine des représentations de fragments et des encodeurs spectraux pour prédire avec précision les structures moléculaires à partir de données IR et RMN, surpassant ainsi les méthodes existantes en termes de précision et de robustesse.

Federico Ottomano, Yingzhen Li, Alex M. Ganose2026-03-12🔬 physics

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Cet article propose un cadre théorique unificateur expliquant le biais de simplicité dans les réseaux de neurones comme résultant d'une dynamique de type « selle à selle », où l'apprentissage par descente de gradient progresse itérativement vers des solutions de complexité croissante en traversant des points de selle et des variétés invariantes.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Cet article propose un cadre d'incertitude relativiste de données (DRU) pour améliorer les images de paysages d'anime en faible luminosité, en palliant le manque de données par un jeu de données non apparié et en exploitant l'incertitude de l'éclairage pour ajuster dynamiquement les fonctions objectif et surpasser les méthodes actuelles.

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

En construisant des « tunnels de vent bayésiens » où la vraisemblance est connue, cette étude démontre que les transformateurs réalisent un inférence bayésienne rigoureuse grâce à un mécanisme géométrique précis impliquant des flux résiduels et une attention hiérarchique, une capacité que les architectures plates ne peuvent reproduire.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Ce papier établit que l'entraînement par entropie croisée sculpte la géométrie interne des transformateurs via une boucle de rétroaction couplée entre le routage et le contenu, agissant comme une procédure EM à deux échelles de temps qui transforme l'optimisation en raisonnement probabiliste bayésien.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Cette étude démontre que les grands modèles de langage modernes conservent un substrat géométrique favorisant l'inférence bayésienne, où les représentations de la dernière couche s'organisent selon un axe dominant corrélé à l'entropie prédictive, bien que cette géométrie constitue davantage une lecture privilégiée de l'incertitude qu'un goulot d'étranglement computationnel unique.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Le cadre d'apprentissage profond interprétable PanSubNet permet de prédire directement les sous-types moléculaires cliniquement pertinents du cancer du pancréas à partir de lames histologiques standard H&E, offrant ainsi une alternative rapide, peu coûteuse et généralisable aux tests génomiques pour la stratification des patients.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Cette étude examine le phénomène de « sur-recherche » dans les modèles de langage augmentés par la recherche, propose une nouvelle métrique d'évaluation nommée Tokens Per Correctness (TPC) pour quantifier ce problème, et présente des stratégies d'atténuation ainsi qu'un nouveau jeu de données, OverSearchQA, pour améliorer l'efficacité de ces systèmes.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Cet article propose une méthode novatrice d'échantillonnage à partir de densités de Boltzmann non normalisées en utilisant des équations différentielles ordinaires de flux dérivées d'interpolants stochastiques linéaires, où des échantillonneurs de Langevin sont employés pour générer des échantillons intermédiaires et estimer le champ de vitesse, garantissant ainsi une convergence théorique et démontrant une efficacité pratique sur des distributions multimodales complexes et des tâches d'inférence bayésienne.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

Cet article présente une analyse d'erreur quantitative pour les problèmes inverses bayésiens utilisant des priors génératifs, démontrant que l'erreur a posteriori hérite du taux de convergence du prior en distance de Wasserstein, tout en validant ces résultats théoriques par des expériences numériques incluant un problème de PDE elliptique.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

Ce papier propose HaKAN, un modèle de prévision de séries temporelles multivariées basé sur les réseaux KAN et des fonctions d'activation polynomiales de Hahn, qui surpasse les méthodes de l'état de l'art en offrant une alternative légère, interprétable et efficace pour capturer les motifs temporels locaux et globaux.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Cet article propose VR-SDA-A, un nouvel algorithme de descente-ascent stochastique à variance réduite intégrant une vérification de courbure par lot unique, qui surmonte la barrière de la stochasticité pour atteindre une complexité d'oracle optimale de O(ε⁻³) dans les problèmes variationnels non convexes tout en permettant une adaptation automatique du pas.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

Cet article propose des réseaux de neurones bayésiens singuliers qui, en paramétrant les poids via une décomposition de rang faible, réduisent considérablement le nombre de paramètres tout en améliorant la calibration, la détection hors distribution et les performances prédictives par rapport aux approches classiques.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

En utilisant des outils de physique statistique, cette étude caractérise l'émergence de distorsions dans les modèles de diffusion guidés comme une transition de phase liée au nombre de modes, démontrant que le guidage standard réduit la variance et proposant un nouveau calendrier de guidage avec une fenêtre de guidage négatif pour préserver la diversité tout en maintenant la séparabilité des classes.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Ce papier démontre que les hallucinations des grands modèles de langage sont une conséquence inévitable de l'optimisation de l'espace mémoire, car la compression d'informations dans un univers de faits clairsemés force théoriquement le modèle à attribuer une haute confiance à certains non-facts pour minimiser la perte d'information.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

Ce papier propose GVP-WM, une méthode qui ancre les plans générés par vidéo dans des séquences d'actions réalisables en utilisant un modèle de monde appris pour optimiser des trajectoires latentes dynamiquement cohérentes tout en préservant l'alignement sémantique avec le plan visuel initial.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

L'étude démontre que la qualité de génération des modèles de diffusion décentralisés est régie par l'alignement entre les experts et les données plutôt que par la stabilité numérique, établissant que router les entrées vers les experts dont la distribution d'entraînement correspond à l'état de débruitage actuel est essentiel pour obtenir de meilleurs résultats.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Cet article propose une approche basée sur l'échantillonnage de Thompson contextuel pour optimiser l'apprentissage des compétences dans les systèmes de recommandation éducative, en générant des séquences d'exercices personnalisés qui maximisent le gain de savoir des apprenants à grande échelle.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Cet article établit un principe d'universalité pour les modèles de tenseurs épineux asymétriques en démontrant que, sous des hypothèses de moments finis, les limites statistiques et spectrales de l'estimateur de vraisemblance maximale coïncident avec celles du cas gaussien, au-delà du cadre de bruit gaussien traditionnel.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

Le papier présente BLITZRANK, un cadre fondé sur les graphes de tournoi qui permet d'identifier les meilleurs éléments parmi un ensemble via des comparaisons k-aires en exploitant les préférences transitives déduites pour réduire considérablement le nombre de requêtes nécessaires tout en maintenant une haute précision.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

← Précédent Suivant →