GraphUniverse: Synthetic Graph Generation for Evaluating Inductive Generalization

Il paper introduce GraphUniverse, un framework open-source per la generazione sintetica di famiglie di grafi con comunità semantiche persistenti, che permette la prima valutazione sistematica della generalizzazione induttiva su larga scala, rivelando che le prestazioni transduttive non sono predittive della capacità di generalizzare e che la robustezza dipende sia dall'architettura che dal regime grafico iniziale.

Louis Van Langendonck, Guillermo Bernárdez, Nina Miolane + 1 more2026-03-03🤖 cs.AI

RED-DiffEq: Regularization by denoising diffusion models for solving inverse PDE problems with application to full waveform inversion

Il paper presenta RED-DiffEq, un nuovo framework computazionale che integra modelli di diffusione pre-addestrati come meccanismo di regolarizzazione per risolvere problemi inversi governati da equazioni differenziali, dimostrando elevata accuratezza e robustezza nell'inversione della forma d'onda completa per la geofisica.

Siming Shan, Min Zhu, Youzuo Lin + 1 more2026-03-03🤖 cs.LG

On the εε-Free Inference Complexity of Absorbing Discrete Diffusion

Questo lavoro introduce l'algoritmo AATU, che sfrutta la struttura dei processi di diffusione discreta assorbente per dimostrare una complessità di inferenza O(dlnd)\mathcal{O}(d \ln d) indipendente dall'errore ϵ\epsilon, superando così i limiti teorici delle basi uniformi e fornendo un fondamento rigoroso per l'efficienza dei modelli di generazione basati su mascheramento.

Xunpeng Huang, Yingyu Lin, Nishant Jain + 4 more2026-03-03🤖 cs.LG

Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

Questo lavoro presenta un'analisi completa della potatura delle attivazioni N:M post-allenamento nei modelli linguistici di grandi dimensioni, dimostrando che tale approccio preserva meglio le capacità generative rispetto alla potatura dei pesi e identificando il pattern 8:16 come un compromesso ottimale tra flessibilità e complessità hardware.

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva + 7 more2026-03-03🤖 cs.AI

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Questo lavoro dimostra che l'algoritmo Group-Relative REINFORCE (GRPO) possiede un'interpretazione nativa off-policy, fornendo principi teorici per regolarizzare gli aggiornamenti e modellare la distribuzione dei dati, smentendo miti comuni e offrendo nuove prospettive per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Il paper dimostra che le curve di perdita delle famiglie di LLM addestrate con ricette di scalabilità pratiche collassano su una traiettoria universale quando gli iperparametri sono ottimizzati, fornendo un potente strumento diagnostico per identificare precocemente problemi di addestramento e guidare l'arresto anticipato, come validato dalla creazione della famiglia di modelli *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Il paper propone un framework per modelli fondazionali multimodali che migliora l'architettura Mixture-of-Experts guidando il routing degli esperti attraverso la quantificazione esplicita delle dipendenze temporali tra le modalità, ottenendo così significativi guadagni prestazionali e pattern di routing interpretabili in ambiti come la sanità e il riconoscimento delle attività.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG