Distillation of Large Language Models via Concrete Score Matching

Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Il paper presenta AdaBlock-dLLM, un metodo di inferenza senza addestramento per modelli linguistici basati su diffusione che, analizzando la dinamica della confidenza durante il processo di denoising, adatta dinamicamente la dimensione dei blocchi di decodifica per allinearla alla struttura semantica, migliorando così l'accuratezza e riducendo gli errori rispetto alle strategie a dimensione fissa.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Questo lavoro indaga le cause teoriche della perdita di plasticità nell'apprendimento profondo, identificando come le proprietà che favoriscono la generalizzazione in ambienti statici, come la saturazione delle unità e la ridondanza rappresentazionale, creino trappole dinamiche che impediscono l'apprendimento continuo in ambienti non stazionari.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

RLP: Reinforcement as a Pretraining Objective

Il paper presenta RLP, un obiettivo di preaddestramento basato sul rinforzo che integra l'esplorazione del ragionamento a catena di pensiero direttamente nella fase di pretraining tramite un segnale di ricompensa denso e privo di verificatori, ottenendo significativi miglioramenti nelle capacità di ragionamento matematico e scientifico su modelli di diverse dimensioni.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

Understanding the Role of Training Data in Test-Time Scaling

Questo studio teorico ed empirico chiarisce come lo scaling del tempo di test migliori le capacità di ragionamento dei modelli linguistici, dimostrando che tale efficacia dipende criticamente dalla diversità, rilevanza e difficoltà dei dati di addestramento, poiché un'adeguata preparazione è essenziale per evitare che l'aumento del calcolo porti a un peggioramento delle prestazioni.

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni2026-03-03📊 stat

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Questo studio dimostra che i modelli impliciti, pur essendo compatti, possono espandere la propria potenza espressiva e migliorare la qualità delle soluzioni aumentando il calcolo a tempo di test, grazie a una caratterizzazione matematica che ne conferma la capacità di approssimare classi di funzioni più ricche in ambiti quali la ricostruzione di immagini, il calcolo scientifico e il ragionamento degli LLM.

Jialin Liu, Lisang Ding, Stanley Osher + 1 more2026-03-03📊 stat