cs.LG articoli | Gist.Science

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Il paper presenta DRA-GRPO, un framework che migliora il ragionamento matematico dei modelli linguistici integrando una calibrazione della diversità basata sull'informazione mutua sottomodulare nel processo di ottimizzazione GRPO, permettendo così di superare la limitazione delle ricompense scalari standard e ottenere prestazioni superiori con dati di addestramento ridotti.

Xiwen Chen, Wenhui Zhu, Peijie Qiu + 7 more2026-03-03💬 cs.CL

Addition is almost all you need: Compressing large language models with double binary factorization

Questo articolo presenta la Double Binary Factorization (DBF), un metodo innovativo che comprime i grandi modelli linguistici fattorizzando le matrici dei pesi in prodotti di due matrici binarie con vettori di scala, offrendo un elevato rapporto di compressione e un controllo fine-granulare della precisione senza compromettere significativamente l'accuratezza.

Vladimír Boža, Vladimír Macko2026-03-03🤖 cs.LG

When Bias Meets Trainability: Connecting Theories of Initialization

Questo lavoro dimostra teoricamente che l'efficienza dell'apprendimento nelle reti neurali profonde è intrinsecamente legata a un pregiudizio iniziale verso una classe specifica, collegando così le teorie dei campi medi sull'inizializzazione al fenomeno del "bias di indovinamento iniziale" e smentendo l'idea che un'inizializzazione neutra sia ottimale.

Alberto Bassi, Marco Baity-Jesi, Aurelien Lucchi + 2 more2026-03-03🤖 cs.AI

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

Questo lavoro introduce il metodo di fattorizzazione BISR (Banded Inverse Square Root), che colma il divario teorico esistente fornendo un limite asintoticamente ottimale per l'errore di fattorizzazione matriciale nell'SGD differenzialmente privato multi-epoca, garantendo al contempo semplicità implementativa ed efficienza computazionale.

Nikita P. Kalinin, Ryan McKenna, Jalaj Upadhyay + 1 more2026-03-03🤖 cs.LG

Self-Destructive Language Model

Il paper presenta SEAM, un nuovo metodo di difesa che rende i modelli linguistici di grandi dimensioni "auto-distruttivi", mantenendo le loro capacità legittime mentre subiscono un collasso delle prestazioni se sottoposti a tentativi di allineamento dannoso, rendendo così inefficaci gli attacchi di fine-tuning malevolo.

Yuhui Wang, Rongyi Zhu, Ting Wang2026-03-03🤖 cs.AI

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

Il paper presenta mCLM, un modello linguistico chimico modulare che, tokenizzando le molecole in blocchi funzionali compatibili con la sintesi automatizzata, genera nuovi candidati farmacologici con proprietà migliorate e un'accessibilità sintetica superiore rispetto ai metodi esistenti, inclusi i modelli di grandi dimensioni come GPT-5.

Carl Edwards, Chi Han, Gawon Lee + 11 more2026-03-03🧬 q-bio

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Questo studio teorico dimostra che i transformer preaddestrati in modo avversario possono agire come modelli fondazionali universalmente robusti, adattandosi a compiti di classificazione non visti tramite apprendimento contestuale da esempi puliti senza necessità di ulteriore addestramento avversario.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Il paper introduce GradPCA, un metodo per il rilevamento di dati fuori distribuzione (OOD) che sfrutta la struttura a basso rango dei gradienti delle reti neurali indotta dall'allineamento NTK, applicando l'analisi delle componenti principali (PCA) alle medie dei gradienti per ottenere prestazioni più coerenti e fornendo un quadro teorico che evidenzia il ruolo cruciale della qualità delle feature.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Questo studio analizza la consistenza del routing locale nei modelli Mixture-of-Experts, proponendo nuove metriche per valutare l'efficacia dell'offloading degli esperti e rivelando come il bilanciamento del carico locale e le scelte architetturali influenzino le prestazioni su dispositivi con memoria limitata.

Jingcong Liang, Siyuan Wang, Miren Tian + 3 more2026-03-03🤖 cs.AI

ICYM2I: The illusion of multimodal informativeness under missingness

Il paper introduce ICYM2I, un framework basato sulla ponderazione per probabilità inversa che corregge i pregiudizi nella stima del guadagno informativo nel machine learning multimodale causati dai cambiamenti nei modelli di dati mancanti tra ambienti di origine e target.

Young Sang Choi, Vincent Jeanselme, Pierre Elias + 1 more2026-03-03📊 stat

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Il paper propone la Negative-aware Fine-Tuning (NFT), un approccio di apprendimento supervisionato che, modellando le risposte errate generate internamente come una politica implicita, permette ai modelli linguistici di migliorare autonomamente nelle capacità di ragionamento matematico, colmando il divario tra metodi supervisionati e di apprendimento per rinforzo e dimostrando risultati paragonabili o superiori agli algoritmi RL più avanzati.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

Discovering and Steering Interpretable Concepts in Large Generative Music Models

Questo paper introduce un metodo scalabile basato su autoencoder sparsi per scoprire e guidare concetti interpretabili nei modelli generativi musicali, rivelando sia principi musicali familiari che pattern coerenti ma non codificati che sfuggono alle tradizionali teorie analitiche.

Nikhil Singh, Manuel Cherep, Pattie Maes2026-03-03⚡ eess

SuperMAN: Interpretable and Expressive Networks over Temporally Sparse Heterogeneous Data

Il paper propone SuperMAN, un framework interpretabile e ad alta espressività basato su grafici impliciti per apprendere da dati temporali eterogenei e sparsi, ottenendo prestazioni all'avanguardia in compiti critici come la previsione dell'insorgenza del morbo di Crohn e il rilevamento di fake news.

Maya Bechler-Speicher, Andrea Zerio, Maor Huri + 5 more2026-03-03🤖 cs.LG

Learning to Reason without External Rewards

Il paper presenta Intuitor, un metodo di apprendimento per rinforzo che utilizza la "self-certainty" (autocertezza) intrinseca del modello come unico segnale di ricompensa, permettendo ai grandi modelli linguistici di migliorare il ragionamento e la generalizzazione in modo completamente non supervisionato senza dipendere da ricompense esterne o dati etichettati.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

Probabilistic Kernel Function for Fast Angle Testing

Questo articolo propone nuove funzioni kernel probabilistiche basate su proiezioni deterministiche per il test degli angoli in spazi ad alta dimensionalità, dimostrando sperimentalmente che superano i metodi basati su distribuzioni gaussiane e offrono un throughput di ricerca 2,5-3 volte superiore rispetto all'algoritmo HNSW.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

PLANETALIGN: A Comprehensive Python Library for Benchmarking Network Alignment

Il documento presenta PLANETALIGN, una libreria Python completa che facilita lo sviluppo e il benchmarking sistematico dei metodi di allineamento di rete attraverso un ricco insieme di dataset, algoritmi e pipeline di valutazione standardizzate.

Qi Yu, Zhichen Zeng, Yuchen Yan + 5 more2026-03-03🤖 cs.LG

EquiReg: Equivariance Regularized Diffusion for Inverse Problems

Il paper propone EquiReg, un framework plug-and-play che migliora la risoluzione dei problemi inversi tramite modelli di diffusione, regolarizzando le traiettorie di campionamento verso il manifold dei dati sfruttando funzioni equivarianti per ottenere ricostruzioni di alta qualità anche con pochi passi di campionamento.

Bahareh Tolooshams, Aditi Chandrashekar, Rayhan Zirvi + 4 more2026-03-03🤖 cs.AI

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Il paper presenta AReaL, un sistema di apprendimento per rinforzo completamente asincrono che disaccoppia generazione e addestramento per massimizzare l'utilizzo delle GPU e accelerare l'addestramento dei modelli linguistici su compiti di ragionamento, ottenendo un miglioramento delle prestazioni fino a 2,77 volte rispetto ai sistemi sincroni.

Wei Fu, Jiaxuan Gao, Xujie Shen + 10 more2026-03-03🤖 cs.AI

General Protein Pretraining or Domain-Specific Designs? Benchmarking Protein Modeling on Realistic Applications

Questo lavoro introduce Protap, un benchmark completo che dimostra come, per applicazioni proteiche realistiche e specifiche, i modelli supervisionati su piccoli dataset, l'integrazione di informazioni strutturali e i prior biologici di dominio possano spesso superare le prestazioni dei grandi modelli preaddestrati su sequenze.

Shuo Yan, Yuliang Yan, Bin Ma + 6 more2026-03-03🧬 q-bio

FAuNO: Semi-Asynchronous Federated Reinforcement Learning Framework for Task Offloading in Edge Systems

Il paper presenta FAuNO, un framework di apprendimento per rinforzo federato asincrono che ottimizza l'offloading dei compiti nei sistemi edge attraverso un'architettura attore-critico, dimostrando prestazioni superiori rispetto alle soluzioni esistenti nel ridurre latenza e perdita di dati.

Frederico Metelo, Alexandre Oliveira, Stevo Racković + 2 more2026-03-03🤖 cs.AI

← Precedente Successivo →