cs.LG articoli | Gist.Science

On the $ε$ -Free Inference Complexity of Absorbing Discrete Diffusion

Questo lavoro introduce l'algoritmo AATU, che sfrutta la struttura dei processi di diffusione discreta assorbente per dimostrare una complessità di inferenza $\mathcal{O}(d \ln d)$ indipendente dall'errore $\epsilon$ , superando così i limiti teorici delle basi uniformi e fornendo un fondamento rigoroso per l'efficienza dei modelli di generazione basati su mascheramento.

Xunpeng Huang, Yingyu Lin, Nishant Jain + 4 more2026-03-03🤖 cs.LG

Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Questo lavoro presenta un'analisi completa della potatura delle attivazioni N:M post-allenamento nei modelli linguistici di grandi dimensioni, dimostrando che tale approccio preserva meglio le capacità generative rispetto alla potatura dei pesi e identificando il pattern 8:16 come un compromesso ottimale tra flessibilità e complessità hardware.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva + 7 more2026-03-03🤖 cs.AI

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

Il paper introduce HEAPr, un nuovo algoritmo di pruning che scompone gli esperti nei modelli MoE in "esperti atomici" indivisibili e utilizza informazioni di secondo ordine semplificate nell'output per ottenere una compressione quasi senza perdita con una complessità computazionale ridotta, superando le prestazioni dei metodi di pruning esistenti.

Ke Li, Zheng Yang, Zhongbin Zhou + 3 more2026-03-03🤖 cs.AI

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

Il paper propone la Quantile Advantage Estimation (QAE), un metodo che sostituisce la baseline media con una quantile di gruppo per stabilizzare l'addestramento RLVR nei modelli linguistici, prevenendo collassi ed esplosioni di entropia e migliorando le prestazioni nel ragionamento matematico.

Junkang Wu, Kexin Huang, Jiancan Wu + 3 more2026-03-03🤖 cs.AI

Landing with the Score: Riemannian Optimization through Denoising

Il paper propone un nuovo approccio all'ottimizzazione Riemanniana su varietà implicite, sfruttando la connessione tra le operazioni geometriche e la funzione di punteggio dei modelli di diffusione per sviluppare algoritmi efficienti come DLF e DRGD, con applicazioni promettenti nel controllo dati-driven e nella progettazione generativa.

Andrey Kharitenko, Zebang Shen, Riccardo de Santi + 2 more2026-03-03📊 stat

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

Questo studio analizza teoricamente e verifica sperimentalmente come il meccanismo di sovrapposizione nelle catene di pensiero continuo emerga naturalmente durante l'addestramento di trasformatori su problemi di raggiungibilità nei grafi, bilanciando esplorazione ed esplorazione attraverso la dinamica dei logit di corrispondenza degli indici.

Hanlin Zhu, Shibo Hao, Zhiting Hu + 3 more2026-03-03🤖 cs.LG

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Questo lavoro propone un approccio innovativo che consente di condurre molteplici esperimenti di preaddestramento in un'unica esecuzione, riducendo drasticamente i costi computazionali e permettendo di replicare risultati precedenti e esplorare nuove aree di ricerca con impatti minimi sulle prestazioni del modello.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Negative Pre-activations Differentiate Syntax

Lo studio dimostra che le pre-attivazioni negative in una sottopopolazione specifica di neuroni "Wasserstein" svolgono un ruolo attivo e fondamentale nel supporto della sintassi nei moderni modelli linguistici a attivazioni lisce, distinguendosi dalle capacità non grammaticali.

Linghao Kong, Angelina Ning, Micah Adler + 1 more2026-03-03🤖 cs.LG

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Questo lavoro dimostra che l'algoritmo Group-Relative REINFORCE (GRPO) possiede un'interpretazione nativa off-policy, fornendo principi teorici per regolarizzare gli aggiornamenti e modellare la distribuzione dei dati, smentendo miti comuni e offrendo nuove prospettive per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

Il paper propone iMOOE, un metodo di apprendimento invariante guidato dalla fisica che sfrutta un principio di invarianza a due livelli per migliorare le prestazioni e la generalizzazione zero-shot nella previsione della dinamica delle equazioni differenziali parziali (PDE) su scenari fuori distribuzione.

Siyang Li, Yize Chen, Yan Guo + 2 more2026-03-03🤖 cs.AI

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Il paper dimostra che le curve di perdita delle famiglie di LLM addestrate con ricette di scalabilità pratiche collassano su una traiettoria universale quando gli iperparametri sono ottimizzati, fornendo un potente strumento diagnostico per identificare precocemente problemi di addestramento e guidare l'arresto anticipato, come validato dalla creazione della famiglia di modelli *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Il paper propone un framework per modelli fondazionali multimodali che migliora l'architettura Mixture-of-Experts guidando il routing degli esperti attraverso la quantificazione esplicita delle dipendenze temporali tra le modalità, ottenendo così significativi guadagni prestazionali e pattern di routing interpretabili in ambiti come la sanità e il riconoscimento delle attività.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

Distillation of Large Language Models via Concrete Score Matching

Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Il paper presenta AdaBlock-dLLM, un metodo di inferenza senza addestramento per modelli linguistici basati su diffusione che, analizzando la dinamica della confidenza durante il processo di denoising, adatta dinamicamente la dimensione dei blocchi di decodifica per allinearla alla struttura semantica, migliorando così l'accuratezza e riducendo gli errori rispetto alle strategie a dimensione fissa.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

Bayesian Influence Functions for Hessian-Free Data Attribution

Il paper propone la funzione di influenza bayesiana locale (BIF), un metodo privo di Hessiano che utilizza campioni MCMC per stimare le statistiche del paesaggio di perdita, permettendo così un'attribuzione dei dati scalabile ed efficace per reti neurali profonde con miliardi di parametri.

Philipp Alexander Kreer, Wilson Wu, Maxwell Adam + 2 more2026-03-03🤖 cs.LG

Estimating Dimensionality of Neural Representations from Finite Samples

Il paper propone un stimatore corretto per la distorsione che permette di calcolare con precisione la dimensionalità globale e locale delle rappresentazioni neurali da campioni finiti, superando i limiti dei metodi esistenti sensibili alla dimensione del campione.

Chanwoo Chun, Abdulkadir Canatar, SueYeon Chung + 1 more2026-03-03🧬 q-bio

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Per-example gradients: a new frontier for understanding and improving optimizers

Il documento dimostra che il calcolo dei gradienti per esempio è fattibile con costi trascurabili e che sfruttare queste statistiche permette di ottimizzare algoritmi come SignSGD e Adam, rivelando che la media dei gradienti è più determinante della varianza per il successo dell'ottimizzazione.

Vincent Roulet, Atish Agarwala2026-03-03🤖 cs.LG

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Questo lavoro indaga le cause teoriche della perdita di plasticità nell'apprendimento profondo, identificando come le proprietà che favoriscono la generalizzazione in ambienti statici, come la saturazione delle unità e la ridondanza rappresentazionale, creino trappole dinamiche che impediscono l'apprendimento continuo in ambienti non stazionari.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

← Precedente Successivo →

cs.LG

On the εεε-Free Inference Complexity of Absorbing Discrete Diffusion