cs.LG articoli | Gist.Science

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Il paper introduce PSN-RLVR, un metodo che supera i limiti esplorativi del Reinforcement Learning con Ricompense Verificabili (RLVR) applicando rumore nello spazio dei parametri dei modelli LLM, integrato con campionamento per importanza tronco e un adattatore di rumore in tempo reale, per migliorare significativamente le prestazioni di ragionamento matematico su larga scala.

Bizhe Bai, Xinyue Wang, Peng Ye + 1 more2026-03-03🤖 cs.AI

Relaxed Triangle Inequality for Kullback-Leibler Divergence Between Multivariate Gaussian Distributions

Questo lavoro risolve il problema del supremo della divergenza Kullback-Leibler tra tre distribuzioni gaussiane multivariate soddisfacendo una disuguaglianza triangolare rilassata, fornendo una formula precisa per il limite superiore e dimostrando la sua utilità nel rilevamento di dati fuori distribuzione e nell'apprendimento per rinforzo sicuro.

Shiji Xiao, Yufeng Zhang, Chubo Liu + 3 more2026-03-03📊 stat

Entropy-Guided Dynamic Tokens for Graph-LLM Alignment in Molecular Understanding

Il paper presenta EDT-Former, un trasformatore di token dinamici guidato dall'entropia che allinea efficientemente encoder grafici congelati con modelli linguistici di grandi dimensioni per la comprensione molecolare, superando i limiti delle architetture statiche esistenti e ottenendo risultati all'avanguardia su diversi benchmark senza richiedere il riaddestramento del backbone LLM.

Zihao Jing, Qiuhao Zeng, Ruiyi Fang + 3 more2026-03-03🤖 cs.AI

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Questo articolo presenta URSA-GAN, un framework generativo unificato che utilizza un'architettura a doppio embedding e una perturbazione stocastica dinamica per adattare modelli di riconoscimento e potenziamento vocale a condizioni di rumore e canale non visti, migliorando significativamente le prestazioni in scenari cross-domain.

Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang + 1 more2026-03-03⚡ eess

Quantile-Physics Hybrid Framework for Safe-Speed Recommendation under Diverse Weather Conditions Leveraging Connected Vehicle and Road Weather Information Systems Data

Questo studio propone un framework ibrido quantile-fisico che, sfruttando dati di veicoli connessi e sistemi meteorologici stradali, raccomanda intervalli di velocità sicuri in tempo reale su autostrade in condizioni meteorologiche avverse per ridurre il rischio di incidenti.

Wen Zhang, Adel W. Sadek, Chunming Qiao2026-03-03🤖 cs.LG

CSRv2: Unlocking Ultra-Sparse Embeddings

Il paper introduce CSRv2, un approccio di addestramento che rende praticabili le embedding ultra-sparse attraverso l'annealing progressivo di k e l'ottimizzazione contrastiva, ottenendo significativi miglioramenti in termini di velocità ed efficienza computazionale rispetto alle embedding dense senza compromettere le prestazioni.

Lixuan Guo, Yifei Wang, Tiansheng Wen + 5 more2026-03-03🔢 math

AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering

Il paper presenta AceGRPO, un metodo di ottimizzazione della politica basato su un curriculum adattivo e un buffer di dati evolutivo che risolve i problemi di latenza e stagnazione comportamentale negli agenti di Machine Learning autonomi, permettendo al modello Ace-30B di raggiungere prestazioni paragonabili a quelle dei modelli proprietari su benchmark complessi.

Yuzhu Cai, Zexi Liu, Xinyu Zhu + 2 more2026-03-03🤖 cs.AI

Incremental (k, z)-Clustering on Graphs

Il paper presenta un algoritmo randomizzato incrementale che mantiene con alta probabilità un'approssimazione a fattore costante per il problema del clustering $(k, z)$ su grafi soggetti a inserimenti di archi, ottenendo un tempo di aggiornamento totale di $\tilde O(k m^{1+o(1)}+ k^{1+\frac{1}{\lambda}} m)$ attraverso un approccio a due stadi che combina un'adattamento dinamico dell'algoritmo di Mettu e Plaxton con spanner dinamici.

Emilio Cruciani, Sebastian Forster, Antonis Skarlatos2026-03-03🤖 cs.LG

GPU-Fuzz: Finding Memory Errors in Deep Learning Frameworks

Il paper introduce GPU-Fuzz, un fuzzing tool che individua errori di memoria nei framework di deep learning modellando i parametri degli operatori come vincoli formali e generando casi di test mirati, avendo così scoperto 13 bug sconosciuti in PyTorch, TensorFlow e PaddlePaddle.

Zihao Li, Hongyi Lu, Yanan Guo + 3 more2026-03-03🤖 cs.LG

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Il paper presenta MiniCPM-SALA, un'architettura ibrida da 9 miliardi di parametri che combina attenzione sparsa e lineare con un framework di addestramento continuo a basso costo per abilitare modelli linguistici efficienti in grado di gestire contesti fino a 1 milione di token mantenendo alte prestazioni.

MiniCPM Team, Wenhao An, Yingfa Chen + 44 more2026-03-03💬 cs.CL

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

Il paper presenta Echo, un modello linguistico audio avanzato che supera i limiti delle attuali architetture adottando un ragionamento intercalato con l'audio, che permette al sistema di riascoltare dinamicamente i segmenti sonori pertinenti durante l'analisi per migliorare la comprensione complessa.

Daiqing Wu, Xuan Zhang, Dongbao Yang + 7 more2026-03-03🤖 cs.LG

Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data

Il paper presenta FGNO, un nuovo framework di apprendimento auto-supervisionato basato su operatori neurali guidati dal flusso che, trattando il livello di corruzione come grado di libertà e utilizzando input puliti per l'estrazione delle rappresentazioni, supera significativamente i metodi esistenti in tre domini biomedici, offrendo prestazioni superiori anche in scenari con scarsità di dati.

Duy Nguyen, Jiachen Yao, Jiayun Wang + 2 more2026-03-03🤖 cs.LG

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Questo lavoro valuta i formati HiFloat (HiF8 e HiF4) ottimizzati per gli NPU Ascend, dimostrando che la loro scalabilità gerarchica e la compatibilità con le tecniche di quantizzazione esistenti offrono una soluzione efficiente per l'inferenza di LLM, superando i limiti delle rappresentazioni intere a 4 bit.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li + 10 more2026-03-03💬 cs.CL

Random Forests as Statistical Procedures: Design, Variance, and Dependence

Questo articolo sviluppa una teoria di campionamento a campione finito per le foreste casuali che separa l'errore Monte Carlo da un limite di covarianza intrinseco, introducendo il metodo PASR per stimare tale limite e costruire intervalli di previsione e di confidenza teoricamente validi sia per risultati continui che classificatori.

Nathaniel S. O'Connell2026-03-03📊 stat

Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

Il paper introduce DRTC, un metodo causale che identifica i punti critici di svolta nel ragionamento dei modelli linguistici intervenendo selettivamente su specifici segmenti di contesto per misurare il loro impatto sulla traiettoria decisionale, dimostrando che tali punti appresi concentrano l'influenza e guidano più efficacemente il ragionamento rispetto a span casuali.

Waldemar Chang2026-03-03🤖 cs.LG

Neural-POD: A Plug-and-Play Neural Operator Framework for Infinite-Dimensional Functional Nonlinear Proper Orthogonal Decomposition

Il paper presenta Neural-POD, un operatore neurale plug-and-play che apprende basi ortogonali non lineari continue nello spazio delle funzioni, superando i limiti di discretizzazione dei modelli AI4Science e migliorando la generalizzazione e l'interpretabilità nella decomposizione ortogonale propria per sistemi complessi.

Changhong Mou, Binghang Lu, Guang Lin2026-03-03🤖 cs.LG

EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Il paper introduce CoreCraft, un ambiente di simulazione aziendale ad alta fedeltà che, attraverso l'addestramento di agenti AI su flussi di lavoro realistici e rubriche esperte, dimostra come la qualità e il realismo dell'ambiente siano fondamentali per ottenere capacità generalizzabili che migliorano le prestazioni anche su benchmark esterni.

Sushant Mehta, Logan Ritchie, Suhaas Garre + 3 more2026-03-03🤖 cs.AI

A Graph Meta-Network for Learning on Kolmogorov-Arnold Networks

Questo lavoro introduce WS-KAN, la prima architettura nello spazio dei pesi progettata specificamente per le Kolmogorov-Arnold Networks (KAN), sfruttando le loro simmetrie di permutazione attraverso una rappresentazione grafica per superare le prestazioni dei metodi agnostici rispetto alla struttura.

Guy Bar-Shalom, Ami Tavory, Itay Evron + 3 more2026-03-03🤖 cs.AI

Agentic Unlearning: When LLM Agent Meets Machine Unlearning

Questo paper introduce l'"agentic unlearning" e il framework SBU, che rimuove in modo sincronizzato le informazioni sensibili sia dai parametri del modello che dalla memoria persistente degli agenti, prevenendo la ricontaminazione incrociata attraverso un meccanismo di aggiornamento duale.

Bin Wang, Fan Wang, Pingping Wang + 5 more2026-03-03🤖 cs.AI

GeneZip: Region-Aware Compression for Long Context DNA Modeling

GeneZip è un modello di compressione del DNA che sfrutta la disomogeneità biologica delle sequenze genomiche per ridurre drasticamente la lunghezza del contesto, consentendo l'addestramento di modelli fondazione su larga scala con risorse computazionali limitate senza compromettere le prestazioni.

Jianan Zhao, Xixian Liu, Zhihao Zhan + 3 more2026-03-03🧬 q-bio

← Precedente Successivo →