Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Questo lavoro propone un quadro teorico unificante che spiega come la dinamica "sella-a-sella" del discesa del gradiente guidi un pregiudizio verso la semplicità in diverse architetture di reti neurali, mostrando che l'apprendimento procede evolvendo attraverso varietà invarianti e punti di sella per acquisire progressivamente soluzioni di complessità crescente.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Il paper presenta PanSubNet, un framework di deep learning interpretabile che, analizzando direttamente le istologie standard H&E, predice i sottotipi molecolari clinicamente rilevanti del carcinoma pancreatico con alta accuratezza e valore prognostico, offrendo un'alternativa rapida ed economica ai costosi test genomici.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Questo lavoro analizza sistematicamente il fenomeno dell'"over-searching" nei modelli linguistici potenziati dalla ricerca, evidenziando come l'invocazione eccessiva degli strumenti di ricerca comprometta l'efficienza e la qualità delle risposte, proponendo al contempo una nuova metrica di valutazione (TPC), strategie di mitigazione e un nuovo dataset (OverSearchQA) per promuovere lo sviluppo di sistemi più efficienti.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Il paper propone un metodo innovativo per il campionamento da densità di Boltzmann non normalizzate, basato su un'equazione differenziale ordinaria di flusso derivata da interpolanti stocastici lineari, che utilizza una sequenza di campionatori di Langevin per generare campioni intermedi e stimare robustamente il campo di velocità, garantendo teoricamente la convergenza e dimostrando l'efficienza in esperimenti numerici su distribuzioni multimodali complesse e compiti di inferenza bayesiana.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Questo studio formalizza la perdita di diversità nei modelli di diffusione guidati come "distorsione generativa", dimostrando che tale fenomeno subisce una transizione di fase in base al numero di classi e proponendo una nuova strategia di guida con una finestra di guida negativa per mitigare la riduzione della varianza preservando la separabilità delle classi.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Questo lavoro teorizza che l'allucinazione nei modelli linguistici è una conseguenza inevitabile dell'ottimizzazione dello spazio di memoria, dimostrando attraverso un teorema di rate-distorsione che, in condizioni di capacità limitata, la strategia informazionalmente ottimale richiede di assegnare alta confidenza a fatti non veri piuttosto che astenersi o dimenticare.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

Lo studio dimostra che la qualità della generazione nei modelli di diffusione decentralizzati è governata dall'allineamento tra esperti e dati, piuttosto che dalla stabilità numerica, poiché il routing che seleziona gli esperti il cui training copre lo stato corrente di denoising produce risultati superiori rispetto a metodi più stabili ma meno pertinenti.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG