On the εε-Free Inference Complexity of Absorbing Discrete Diffusion

Questo lavoro introduce l'algoritmo AATU, che sfrutta la struttura dei processi di diffusione discreta assorbente per dimostrare una complessità di inferenza O(dlnd)\mathcal{O}(d \ln d) indipendente dall'errore ϵ\epsilon, superando così i limiti teorici delle basi uniformi e fornendo un fondamento rigoroso per l'efficienza dei modelli di generazione basati su mascheramento.

Xunpeng Huang, Yingyu Lin, Nishant Jain + 4 more2026-03-03🤖 cs.LG

Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Questo lavoro presenta un'analisi completa della potatura delle attivazioni N:M post-allenamento nei modelli linguistici di grandi dimensioni, dimostrando che tale approccio preserva meglio le capacità generative rispetto alla potatura dei pesi e identificando il pattern 8:16 come un compromesso ottimale tra flessibilità e complessità hardware.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva + 7 more2026-03-03🤖 cs.AI

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Questo lavoro dimostra che l'algoritmo Group-Relative REINFORCE (GRPO) possiede un'interpretazione nativa off-policy, fornendo principi teorici per regolarizzare gli aggiornamenti e modellare la distribuzione dei dati, smentendo miti comuni e offrendo nuove prospettive per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Il paper dimostra che le curve di perdita delle famiglie di LLM addestrate con ricette di scalabilità pratiche collassano su una traiettoria universale quando gli iperparametri sono ottimizzati, fornendo un potente strumento diagnostico per identificare precocemente problemi di addestramento e guidare l'arresto anticipato, come validato dalla creazione della famiglia di modelli *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Il paper propone un framework per modelli fondazionali multimodali che migliora l'architettura Mixture-of-Experts guidando il routing degli esperti attraverso la quantificazione esplicita delle dipendenze temporali tra le modalità, ottenendo così significativi guadagni prestazionali e pattern di routing interpretabili in ambiti come la sanità e il riconoscimento delle attività.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

Distillation of Large Language Models via Concrete Score Matching

Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Il paper presenta AdaBlock-dLLM, un metodo di inferenza senza addestramento per modelli linguistici basati su diffusione che, analizzando la dinamica della confidenza durante il processo di denoising, adatta dinamicamente la dimensione dei blocchi di decodifica per allinearla alla struttura semantica, migliorando così l'accuratezza e riducendo gli errori rispetto alle strategie a dimensione fissa.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Questo lavoro indaga le cause teoriche della perdita di plasticità nell'apprendimento profondo, identificando come le proprietà che favoriscono la generalizzazione in ambienti statici, come la saturazione delle unità e la ridondanza rappresentazionale, creino trappole dinamiche che impediscono l'apprendimento continuo in ambienti non stazionari.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI