cs.LG articoli | Gist.Science

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

Il paper presenta NMIRacle, un nuovo framework generativo a due stadi che combina rappresentazioni di frammenti molecolari e codifica spettrale per ricostruire con precisione la struttura molecolare direttamente dai dati IR e NMR, superando le prestazioni dei metodi esistenti.

Federico Ottomano, Yingzhen Li, Alex M. Ganose2026-03-12🔬 physics

Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

Questo lavoro propone un quadro teorico unificante che spiega come la dinamica "sella-a-sella" del discesa del gradiente guidi un pregiudizio verso la semplicità in diverse architetture di reti neurali, mostrando che l'apprendimento procede evolvendo attraverso varietà invarianti e punti di sella per acquisire progressivamente soluzioni di complessità crescente.

Yedi Zhang, Andrew Saxe, Peter E. Latham2026-03-12🤖 cs.LG

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Questo studio introduce il framework Data Relativistic Uncertainty (DRU), che affronta la scarsità di dati e l'incertezza dell'illuminazione nelle immagini di scenari anime a bassa luminosità creando un nuovo dataset non accoppiato e adattando dinamicamente le funzioni obiettivo per superare le prestazioni degli stati dell'arte.

Yiquan Gao, John See2026-03-12🤖 cs.LG

The Bayesian Geometry of Transformer Attention

Questo studio dimostra che i piccoli trasformatori realizzano l'inferenza bayesiana attraverso un meccanismo geometrico specifico, utilizzando stream residui come substrato delle credenze e reti feed-forward per l'aggiornamento, superando di gran lunga le architetture MLP in ambienti controllati chiamati "gallerie del vento bayesiane" dove la vera posterior è nota.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Questo lavoro dimostra che l'addestramento con entropia incrociata nei transformer scolpisce dinamicamente la geometria interna delle teste di attenzione, creando una procedura a due scale temporali analoga all'EM che allinea l'ottimizzazione del gradiente ai manifold bayesiani necessari per il ragionamento probabilistico in contesto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Lo studio dimostra che i moderni modelli linguistici preservano un substrato geometrico che codifica la struttura bayesiana, organizzando le loro stime di incertezza lungo un asse dominante delle rappresentazioni di valore che può essere manipolato selettivamente senza però costituire un collo di bottiglia computazionale unico.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Il paper presenta PanSubNet, un framework di deep learning interpretabile che, analizzando direttamente le istologie standard H&E, predice i sottotipi molecolari clinicamente rilevanti del carcinoma pancreatico con alta accuratezza e valore prognostico, offrendo un'alternativa rapida ed economica ai costosi test genomici.

Abdul Rehman Akbar, Alejandro Levya, Ashwini Esnakula, Elshad Hasanov, Anne Noonan, Lingbin Meng, Susan Tsai, Vaibhav Sahai, Midhun Malla, Sarbajit Mukherjee, Upender Manne, Anil Parwani, Wei Chen, Ashish Manne, Muhammad Khalid Khan Niazi2026-03-12⚡ eess

Over-Searching in Search-Augmented Large Language Models

Questo lavoro analizza sistematicamente il fenomeno dell'"over-searching" nei modelli linguistici potenziati dalla ricerca, evidenziando come l'invocazione eccessiva degli strumenti di ricerca comprometta l'efficienza e la qualità delle risposte, proponendo al contempo una nuova metrica di valutazione (TPC), strategie di mitigazione e un nuovo dataset (OverSearchQA) per promuovere lo sviluppo di sistemi più efficienti.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Sampling via Stochastic Interpolants by Langevin-based Velocity and Initialization Estimation in Flow ODEs

Il paper propone un metodo innovativo per il campionamento da densità di Boltzmann non normalizzate, basato su un'equazione differenziale ordinaria di flusso derivata da interpolanti stocastici lineari, che utilizza una sequenza di campionatori di Langevin per generare campioni intermedi e stimare robustamente il campo di velocità, garantendo teoricamente la convergenza e dimostrando l'efficienza in esperimenti numerici su distribuzioni multimodali complesse e compiti di inferenza bayesiana.

Chenguang Duan, Yuling Jiao, Gabriele Steidl, Christian Wald, Jerry Zhijian Yang, Ruizhe Zhang2026-03-12📊 stat

Error Analysis of Bayesian Inverse Problems with Generative Priors

Questo articolo presenta un'analisi quantitativa degli errori nei problemi inversi bayesiani con prior generativi, dimostrando che l'errore nel posterio eredita il tasso di convergenza del prior rispetto alla distanza di Wasserstein-1 e validando tali risultati attraverso esperimenti numerici e un problema inverso di equazioni alle derivate parziali ellittiche.

Bamdad Hosseini, Ziqi Huang2026-03-12📊 stat

Time series forecasting with Hahn Kolmogorov-Arnold networks

Il paper presenta HaKAN, un modello innovativo per la previsione di serie temporali multivariate basato sulle reti Kolmogorov-Arnold con funzioni di attivazione apprese tramite polinomi di Hahn, che supera i limiti computazionali e le distorsioni spettrali dei modelli esistenti offrendo un'alternativa leggera, interpretabile e ad alte prestazioni.

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila2026-03-12📊 stat

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Il lavoro propone VR-SDA-A, un nuovo algoritmo che combina momentum ricorsivo e verifica della curvatura per superare la barriera stocastica nelle disuguaglianze variazionali stocastiche non convesse, ottenendo complessità ottimali e adattabilità automatica del passo senza bisogno di schedulazione manuale.

Yungi Jeong, Takumi Otsuka2026-03-12🤖 cs.LG

Singular Bayesian Neural Networks

Il paper propone le Singular Bayesian Neural Networks, un approccio che parametrizza i pesi come prodotti di matrici a basso rango per ridurre drasticamente il numero di parametri e migliorare la calibrazione e la rilevazione di dati fuori distribuzione, ottenendo prestazioni competitive con gli ensemble profondi ma con una complessità teorica e pratica significativamente inferiore.

Mame Diarra Toure, David A. Stephens2026-03-12📊 stat

Emergence of Distortions in High-Dimensional Guided Diffusion Models

Questo studio formalizza la perdita di diversità nei modelli di diffusione guidati come "distorsione generativa", dimostrando che tale fenomeno subisce una transizione di fase in base al numero di classi e proponendo una nuova strategia di guida con una finestra di guida negativa per mitigare la riduzione della varianza preservando la separabilità delle classi.

Enrico Ventura, Beatrice Achilli, Luca Ambrogioni, Carlo Lucibello2026-03-12📊 stat

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Questo lavoro teorizza che l'allucinazione nei modelli linguistici è una conseguenza inevitabile dell'ottimizzazione dello spazio di memoria, dimostrando attraverso un teorema di rate-distorsione che, in condizioni di capacità limitata, la strategia informazionalmente ottimale richiede di assegnare alta confidenza a fatti non veri piuttosto che astenersi o dimenticare.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Grounding Generated Videos in Feasible Plans via World Models

Il paper propone GVP-WM, un metodo che utilizza un modello del mondo appreso per ancorare i piani generati da video a sequenze di azioni fisicamente fattibili, risolvendo problemi di coerenza temporale e vincoli fisici in compiti di pianificazione a lungo raggio.

Christos Ziakas, Amir Bar, Alessandra Russo2026-03-12🤖 cs.LG

Expert-Data Alignment Governs Generation Quality in Decentralized Diffusion Models

Lo studio dimostra che la qualità della generazione nei modelli di diffusione decentralizzati è governata dall'allineamento tra esperti e dati, piuttosto che dalla stabilità numerica, poiché il routing che seleziona gli esperti il cui training copre lo stato corrente di denoising produce risultati superiori rispetto a metodi più stabili ma meno pertinenti.

Marcos Villagra, Bidhan Roy, Raihan Seraj, Zhiying Jiang2026-03-12🤖 cs.LG

A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Questo articolo presenta un approccio basato su Thompson Sampling contestuale per sistemi di raccomandazione educativa che, analizzando i dati di un tutoraggio matematico online, genera sequenze di esercizi personalizzati per massimizzare l'acquisizione di competenze e supportare l'insegnamento su larga scala.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Universality of General Spiked Tensor Models

Questo articolo stabilisce un principio di universalità per i modelli di tensori spiked asimmetrici, dimostrando che il comportamento spettrale asintotico e i limiti statistici degli stimatori di massima verosimiglianza rimangono invariati rispetto al caso gaussiano anche quando il rumore segue una distribuzione generica con momento quarto finito.

Yanjin Xiang, Zhihua Zhang2026-03-12📊 stat

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

Il paper introduce BLITZRANK, un framework basato su grafi di torneo che permette di selezionare i migliori $m$ elementi da $n$ tramite confronti $k$ -wise, ottenendo un ranking zero-shot più efficiente e preciso rispetto ai metodi esistenti grazie all'aggregazione delle preferenze e alla gestione dei cicli di non transitività.

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela2026-03-12🤖 cs.LG

← Precedente Successivo →