cs.LG articoli | Gist.Science

Distillation of Large Language Models via Concrete Score Matching

Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Il paper presenta AdaBlock-dLLM, un metodo di inferenza senza addestramento per modelli linguistici basati su diffusione che, analizzando la dinamica della confidenza durante il processo di denoising, adatta dinamicamente la dimensione dei blocchi di decodifica per allinearla alla struttura semantica, migliorando così l'accuratezza e riducendo gli errori rispetto alle strategie a dimensione fissa.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

Bayesian Influence Functions for Hessian-Free Data Attribution

Il paper propone la funzione di influenza bayesiana locale (BIF), un metodo privo di Hessiano che utilizza campioni MCMC per stimare le statistiche del paesaggio di perdita, permettendo così un'attribuzione dei dati scalabile ed efficace per reti neurali profonde con miliardi di parametri.

Philipp Alexander Kreer, Wilson Wu, Maxwell Adam + 2 more2026-03-03🤖 cs.LG

Estimating Dimensionality of Neural Representations from Finite Samples

Il paper propone un stimatore corretto per la distorsione che permette di calcolare con precisione la dimensionalità globale e locale delle rappresentazioni neurali da campioni finiti, superando i limiti dei metodi esistenti sensibili alla dimensione del campione.

Chanwoo Chun, Abdulkadir Canatar, SueYeon Chung + 1 more2026-03-03🧬 q-bio

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Per-example gradients: a new frontier for understanding and improving optimizers

Il documento dimostra che il calcolo dei gradienti per esempio è fattibile con costi trascurabili e che sfruttare queste statistiche permette di ottimizzare algoritmi come SignSGD e Adam, rivelando che la media dei gradienti è più determinante della varianza per il successo dell'ottimizzazione.

Vincent Roulet, Atish Agarwala2026-03-03🤖 cs.LG

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Questo lavoro indaga le cause teoriche della perdita di plasticità nell'apprendimento profondo, identificando come le proprietà che favoriscono la generalizzazione in ambienti statici, come la saturazione delle unità e la ridondanza rappresentazionale, creino trappole dinamiche che impediscono l'apprendimento continuo in ambienti non stazionari.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

A universal compression theory for lottery ticket hypothesis and neural scaling laws

Questo lavoro dimostra che è possibile comprimere asintoticamente funzioni generiche di $d$ oggetti in funzioni di dimensione polilogaritmica, fornendo una prova costruttiva dell'ipotesi del biglietto della lotteria dinamica e mostrando come le leggi di scaling neurale possano essere potenziate fino a un decadimento esponenziale.

Hong-Yi Wang, Di Luo, Tomaso Poggio + 2 more2026-03-03📊 stat

LEAP: Local ECT-Based Learnable Positional Encodings for Graphs

Il paper propone LEAP, un nuovo metodo di codifica posizionale strutturale locale e addestrabile end-to-end per i grafi, che combina l'Euler Characteristic Transform differenziabile e la sua variante locale per superare i limiti delle reti neurali su grafi tradizionali.

Juan Amboage, Ernst Röell, Patrick Schnider + 1 more2026-03-03🤖 cs.LG

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

Il paper propone CAPO, un algoritmo di ottimizzazione della politica consapevole della curvatura che, identificando e mascherando i campioni che causano aggiornamenti instabili, garantisce una convergenza stabile e migliora l'efficienza del campionamento fino a 30 volte rispetto ai metodi standard nel ragionamento dei LLM.

Luckeciano C. Melo, Alessandro Abate, Yarin Gal2026-03-03🤖 cs.AI

GEM: A Gym for Agentic LLMs

Il paper introduce GEM (General Experience Maker), un ambiente open-source standardizzato che facilita l'apprendimento esperienziale degli agenti LLM fornendo un framework flessibile per l'interazione, un'ampia suite di ambienti e strumenti di valutazione, oltre a offrire benchmark comparativi tra diversi algoritmi di reinforcement learning.

Zichen Liu, Anya Sims, Keyu Duan + 16 more2026-03-03💬 cs.CL

RLP: Reinforcement as a Pretraining Objective

Il paper presenta RLP, un obiettivo di preaddestramento basato sul rinforzo che integra l'esplorazione del ragionamento a catena di pensiero direttamente nella fase di pretraining tramite un segnale di ricompensa denso e privo di verificatori, ottenendo significativi miglioramenti nelle capacità di ragionamento matematico e scientifico su modelli di diverse dimensioni.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

Learning to Play Multi-Follower Bayesian Stackelberg Games

Questo lavoro presenta algoritmi di apprendimento online per un leader in giochi bayesiani di Stackelberg multi-seguace, ottenendo limiti di rimpianto sub-lineari in diverse impostazioni di feedback (tipo e azione) che, sorprendentemente, non crescono polinomialmente con il numero di seguaci.

Gerson Personnat, Tao Lin, Safwan Hossain + 1 more2026-03-03📈 econ

ExGRPO: Learning to Reason from Experience

Il paper presenta ExGRPO, un nuovo framework che migliora l'efficienza e la stabilità dell'apprendimento per il ragionamento nei modelli linguistici riutilizzando e prioritizzando le esperienze di addestramento più preziose, basandosi su correttezza ed entropia, ottenendo risultati superiori rispetto ai metodi RLVR on-policy tradizionali.

Runzhe Zhan, Yafu Li, Zhi Wang + 5 more2026-03-03💬 cs.CL

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Il paper presenta DragFlow, un nuovo framework che supera i limiti delle tecniche di editing basate su punti sfruttando i potenti prior del modello DiT FLUX attraverso una supervisione basata su regioni, trasformazioni affini e adattatori di personalizzazione, ottenendo risultati state-of-the-art su benchmark specifici.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

Understanding the Role of Training Data in Test-Time Scaling

Questo studio teorico ed empirico chiarisce come lo scaling del tempo di test migliori le capacità di ragionamento dei modelli linguistici, dimostrando che tale efficacia dipende criticamente dalla diversità, rilevanza e difficoltà dei dati di addestramento, poiché un'adeguata preparazione è essenziale per evitare che l'aumento del calcolo porti a un peggioramento delle prestazioni.

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni2026-03-03📊 stat

Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling

Questo studio dimostra che i modelli impliciti, pur essendo compatti, possono espandere la propria potenza espressiva e migliorare la qualità delle soluzioni aumentando il calcolo a tempo di test, grazie a una caratterizzazione matematica che ne conferma la capacità di approssimare classi di funzioni più ricche in ambiti quali la ricostruzione di immagini, il calcolo scientifico e il ragionamento degli LLM.

Jialin Liu, Lisang Ding, Stanley Osher + 1 more2026-03-03📊 stat

RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

Il paper introduce RACE Attention, un meccanismo di attenzione a complessità strettamente lineare che sostituisce il softmax con proiezioni casuali gaussiane e hashing sensibile alla località per abilitare l'addestramento su sequenze di milioni di token superando i limiti di memoria e tempo delle implementazioni attuali.

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala + 3 more2026-03-03🤖 cs.AI

What Scales in Cross-Entropy Scaling Law?

Questo paper dimostra che la legge di scala dell'entropia incrociata fallisce su larga scala perché solo il suo componente "entropia dell'errore" segue una legge di potenza robusta, mentre gli altri termini rimangono invarianti, suggerendo che l'entropia dell'errore sia la vera metrica scalabile per lo sviluppo dei modelli linguistici.

Junxi Yan, Zixi Wei, Qingyao Ai + 2 more2026-03-03💬 cs.CL

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

Il paper propone DRPO, un nuovo framework di ottimizzazione che risolve il problema del "sovra-pensiero" nei modelli di ragionamento su larga scala decouplando i segnali di reward per le risposte corrette da quelle errate, ottenendo così una significativa riduzione della lunghezza delle risposte con una minima perdita di prestazioni.

Gang Li, Yan Chen, Ming Lin + 1 more2026-03-03🤖 cs.AI

← Precedente Successivo →