cs.LG articoli | Gist.Science

Negative Pre-activations Differentiate Syntax

Lo studio dimostra che le pre-attivazioni negative in una sottopopolazione specifica di neuroni "Wasserstein" svolgono un ruolo attivo e fondamentale nel supporto della sintassi nei moderni modelli linguistici a attivazioni lisce, distinguendosi dalle capacità non grammaticali.

Linghao Kong, Angelina Ning, Micah Adler + 1 more2026-03-03🤖 cs.LG

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Questo lavoro dimostra che l'algoritmo Group-Relative REINFORCE (GRPO) possiede un'interpretazione nativa off-policy, fornendo principi teorici per regolarizzare gli aggiornamenti e modellare la distribuzione dei dati, smentendo miti comuni e offrendo nuove prospettive per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni.

Chaorui Yao, Yanxi Chen, Yuchang Sun + 5 more2026-03-03💬 cs.CL

Towards Generalizable PDE Dynamics Forecasting via Physics-Guided Invariant Learning

Il paper propone iMOOE, un metodo di apprendimento invariante guidato dalla fisica che sfrutta un principio di invarianza a due livelli per migliorare le prestazioni e la generalizzazione zero-shot nella previsione della dinamica delle equazioni differenziali parziali (PDE) su scenari fuori distribuzione.

Siyang Li, Yize Chen, Yan Guo + 2 more2026-03-03🤖 cs.AI

Scaling with Collapse: Efficient and Predictable Training of LLM Families

Il paper dimostra che le curve di perdita delle famiglie di LLM addestrate con ricette di scalabilità pratiche collassano su una traiettoria universale quando gli iperparametri sono ottimizzati, fornendo un potente strumento diagnostico per identificare precocemente problemi di addestramento e guidare l'arresto anticipato, come validato dalla creazione della famiglia di modelli *Celerity*.

Shane Bergsma, Bin Claire Zhang, Nolan Dey + 3 more2026-03-03💬 cs.CL

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Il paper propone un framework per modelli fondazionali multimodali che migliora l'architettura Mixture-of-Experts guidando il routing degli esperti attraverso la quantificazione esplicita delle dipendenze temporali tra le modalità, ottenendo così significativi guadagni prestazionali e pattern di routing interpretabili in ambiti come la sanità e il riconoscimento delle attività.

Xing Han, Hsing-Huan Chung, Joydeep Ghosh + 2 more2026-03-03🤖 cs.LG

Distillation of Large Language Models via Concrete Score Matching

Il paper propone la Concrete Score Distillation (CSD), un nuovo obiettivo di distillazione basato sul score matching discreto che supera i limiti delle tecniche esistenti eliminando l'effetto di smoothing del softmax e le restrizioni sull'invarianza dello shift dei logit, ottenendo così risultati superiori nella fedeltà e nella diversità durante la distillazione di grandi modelli linguistici.

Yeongmin Kim, Donghyeok Shin, Mina Kang + 2 more2026-03-03🤖 cs.AI

AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size

Il paper presenta AdaBlock-dLLM, un metodo di inferenza senza addestramento per modelli linguistici basati su diffusione che, analizzando la dinamica della confidenza durante il processo di denoising, adatta dinamicamente la dimensione dei blocchi di decodifica per allinearla alla struttura semantica, migliorando così l'accuratezza e riducendo gli errori rispetto alle strategie a dimensione fissa.

Guanxi Lu, Hao Mark Chen, Yuto Karashima + 3 more2026-03-03🤖 cs.AI

Bayesian Influence Functions for Hessian-Free Data Attribution

Il paper propone la funzione di influenza bayesiana locale (BIF), un metodo privo di Hessiano che utilizza campioni MCMC per stimare le statistiche del paesaggio di perdita, permettendo così un'attribuzione dei dati scalabile ed efficace per reti neurali profonde con miliardi di parametri.

Philipp Alexander Kreer, Wilson Wu, Maxwell Adam + 2 more2026-03-03🤖 cs.LG

Estimating Dimensionality of Neural Representations from Finite Samples

Il paper propone un stimatore corretto per la distorsione che permette di calcolare con precisione la dimensionalità globale e locale delle rappresentazioni neurali da campioni finiti, superando i limiti dei metodi esistenti sensibili alla dimensione del campione.

Chanwoo Chun, Abdulkadir Canatar, SueYeon Chung + 1 more2026-03-03🧬 q-bio

MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages

Il paper introduce MENLO, un framework e un dataset di 6.423 coppie preferenziali annotate da umani in 47 lingue per valutare la qualità nativa delle risposte degli LLM, dimostrando che l'addestramento con reinforcement learning migliora significativamente sia i giudici automatici che la proficienza multilingue dei modelli, pur lasciando margini di miglioramento rispetto al giudizio umano.

Chenxi Whitehouse, Sebastian Ruder, Tony Lin + 6 more2026-03-03💬 cs.CL

Per-example gradients: a new frontier for understanding and improving optimizers

Il documento dimostra che il calcolo dei gradienti per esempio è fattibile con costi trascurabili e che sfruttare queste statistiche permette di ottimizzare algoritmi come SignSGD e Adam, rivelando che la media dei gradienti è più determinante della varianza per il successo dell'ottimizzazione.

Vincent Roulet, Atish Agarwala2026-03-03🤖 cs.LG

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

Questo lavoro indaga le cause teoriche della perdita di plasticità nell'apprendimento profondo, identificando come le proprietà che favoriscono la generalizzazione in ambienti statici, come la saturazione delle unità e la ridondanza rappresentazionale, creino trappole dinamiche che impediscono l'apprendimento continuo in ambienti non stazionari.

Amir Joudaki, Giulia Lanzillotta, Mohammad Samragh Razlighi + 5 more2026-03-03🤖 cs.AI

A universal compression theory for lottery ticket hypothesis and neural scaling laws

Questo lavoro dimostra che è possibile comprimere asintoticamente funzioni generiche di $d$ oggetti in funzioni di dimensione polilogaritmica, fornendo una prova costruttiva dell'ipotesi del biglietto della lotteria dinamica e mostrando come le leggi di scaling neurale possano essere potenziate fino a un decadimento esponenziale.

Hong-Yi Wang, Di Luo, Tomaso Poggio + 2 more2026-03-03📊 stat

LEAP: Local ECT-Based Learnable Positional Encodings for Graphs

Il paper propone LEAP, un nuovo metodo di codifica posizionale strutturale locale e addestrabile end-to-end per i grafi, che combina l'Euler Characteristic Transform differenziabile e la sua variante locale per superare i limiti delle reti neurali su grafi tradizionali.

Juan Amboage, Ernst Röell, Patrick Schnider + 1 more2026-03-03🤖 cs.LG

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

Il paper propone CAPO, un algoritmo di ottimizzazione della politica consapevole della curvatura che, identificando e mascherando i campioni che causano aggiornamenti instabili, garantisce una convergenza stabile e migliora l'efficienza del campionamento fino a 30 volte rispetto ai metodi standard nel ragionamento dei LLM.

Luckeciano C. Melo, Alessandro Abate, Yarin Gal2026-03-03🤖 cs.AI

GEM: A Gym for Agentic LLMs

Il paper introduce GEM (General Experience Maker), un ambiente open-source standardizzato che facilita l'apprendimento esperienziale degli agenti LLM fornendo un framework flessibile per l'interazione, un'ampia suite di ambienti e strumenti di valutazione, oltre a offrire benchmark comparativi tra diversi algoritmi di reinforcement learning.

Zichen Liu, Anya Sims, Keyu Duan + 16 more2026-03-03💬 cs.CL

RLP: Reinforcement as a Pretraining Objective

Il paper presenta RLP, un obiettivo di preaddestramento basato sul rinforzo che integra l'esplorazione del ragionamento a catena di pensiero direttamente nella fase di pretraining tramite un segnale di ricompensa denso e privo di verificatori, ottenendo significativi miglioramenti nelle capacità di ragionamento matematico e scientifico su modelli di diverse dimensioni.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

Learning to Play Multi-Follower Bayesian Stackelberg Games

Questo lavoro presenta algoritmi di apprendimento online per un leader in giochi bayesiani di Stackelberg multi-seguace, ottenendo limiti di rimpianto sub-lineari in diverse impostazioni di feedback (tipo e azione) che, sorprendentemente, non crescono polinomialmente con il numero di seguaci.

Gerson Personnat, Tao Lin, Safwan Hossain + 1 more2026-03-03📈 econ

ExGRPO: Learning to Reason from Experience

Il paper presenta ExGRPO, un nuovo framework che migliora l'efficienza e la stabilità dell'apprendimento per il ragionamento nei modelli linguistici riutilizzando e prioritizzando le esperienze di addestramento più preziose, basandosi su correttezza ed entropia, ottenendo risultati superiori rispetto ai metodi RLVR on-policy tradizionali.

Runzhe Zhan, Yafu Li, Zhi Wang + 5 more2026-03-03💬 cs.CL

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Il paper presenta DragFlow, un nuovo framework che supera i limiti delle tecniche di editing basate su punti sfruttando i potenti prior del modello DiT FLUX attraverso una supervisione basata su regioni, trasformazioni affini e adattatori di personalizzazione, ottenendo risultati state-of-the-art su benchmark specifici.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

← Precedente Successivo →