cs.LG articoli | Gist.Science

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Questo paper introduce un metodo per allineare la confidenza degli LLM alla correttezza delle loro risposte utilizzando punteggi normalizzati basati su token di ancoraggio, dimostrando che il fine-tuning supervisionato migliora l'affidabilità rispetto ai metodi di apprendimento per rinforzo e abilitando applicazioni pratiche come la generazione aumentata da recupero adattiva.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Il paper presenta STAR Set Transformer, un modello che migliora l'analisi delle serie temporali cliniche asincrone introducendo bias di attenzione temporale e di tipo variabile per preservare la struttura dei dati senza ricorrere all'imputazione, ottenendo prestazioni superiori su compiti predittivi in terapia intensiva.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Il paper presenta LegoNet, una tecnica di compressione che raggruppa e clusterizza blocchi di pesi interi per ridurre l'ingombro di memoria fino a 128 volte senza modificare l'architettura, riaddestrare il modello o compromettere significativamente l'accuratezza.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Questo lavoro propone un benchmark sistematico basato su giochi di interferenza progressivamente complessi e dataset su larga scala per valutare le prestazioni degli algoritmi di apprendimento per rinforzo multi-agente nell'allocazione delle risorse V2X, identificando la robustezza e la generalizzazione delle policy su diverse topologie veicolari come la sfida principale e dimostrando la superiorità dei metodi actor-critic rispetto a quelli basati sul valore.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Il paper presenta la Two-Bridge Map Suite, un nuovo benchmark open-source e accessibile per l'apprendimento per rinforzo che colma il divario tra le sfide computazionali di StarCraft II completo e la semplicità eccessiva dei suoi mini-giochi, isolando le abilità tattiche di navigazione e combattimento per facilitare la ricerca con risorse limitate.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Questo articolo presenta un metodo pratico che combina il Test di Randomizzazione Condizionata (CRT) con il modello fondazionale TabPFN per ottenere valori p validi in campioni finiti sulla rilevanza delle feature nei dati tabellari, senza necessità di riaddestramento del modello o assunzioni parametriche.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Il paper introduce CapTrack, un framework basato sulle capacità per valutare il "dimenticare" nei modelli linguistici post-addestrati non solo come perdita di conoscenze fattuali ma come deriva comportamentale sistematica, rivelando attraverso uno studio su larga scala che tale fenomeno compromette anche robustezza e comportamenti predefiniti, con l'addestramento su istruzioni che causa la maggiore deriva e l'ottimizzazione delle preferenze che offre una parziale mitigazione.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Il documento dimostra che, a differenza dei domini verificabili come la matematica, l'aumento della potenza di calcolo tramite strategie di consenso (come il Pass@k) non migliora l'affidabilità delle risposte dei modelli linguistici in ambiti non verificati, poiché gli errori dei modelli sono fortemente correlati e le aggregazioni tendono a rafforzare le concezioni errate condivise anziché filtrarle.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Il paper presenta OptiRoulette, un nuovo meta-ottimizzatore stocastico che seleziona dinamicamente le regole di aggiornamento durante l'addestramento, garantendo una convergenza più rapida e affidabile e migliorando significativamente l'accuratezza rispetto a AdamW su diverse suite di classificazione di immagini.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Questo paper propone una rappresentazione unificata per i modelli di diffusione e il flow matching tramite equazioni lineari, evidenziando attraverso l'analisi teorica come la debole correlazione tra i dati rumorosi e l'obiettivo previsto possa compromettere il processo di apprendimento.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Il paper propone il framework Annealed Co-Generation (ACG), che facilita la co-generazione multivariata in ambito scientifico sostituendo la modellazione congiunta ad alta dimensionalità con modelli di diffusione pairwise a bassa dimensionalità, allineati tramite un processo di ricottura a tre stadi per garantire coerenza senza necessità di ulteriore addestramento.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Il paper presenta RACER, un metodo di instradamento per i grandi modelli linguistici che, formulando il problema come $\alpha$ -VOR e utilizzando limiti di concentrazione finiti per la calibrazione, garantisce un controllo rigoroso del rischio di errore distribuendo le query su insiemi di modelli per migliorare l'accuratezza e gestire l'incertezza.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Il paper introduce Evo, un modello linguistico autoregressivo-diffusivo che unifica i due paradigmi in un flusso latente evolutivo, permettendo un bilanciamento adattivo tra generazione e pianificazione per ottenere risultati all'avanguardia su molteplici compiti mantenendo un'efficienza inferenziale elevata.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Il paper propone un nuovo framework basato sull'apprendimento rappresentazionale contestuale e sulla distillazione della conoscenza per migliorare la previsione delle interazioni in zero-shot nelle reti biologiche multiplex, superando i limiti dei metodi esistenti nella modellazione della multiplicità e nell'integrazione di informazioni strutturali e sequenziali.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Il paper introduce GraphSkill, un framework agentic che migliora il ragionamento su grafi complessi tramite un recupero gerarchico guidato dalla documentazione e un agente di autodebugging, validato su un nuovo dataset dedicato.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Il paper dimostra che i Process Reward Models (PRM) all'avanguardia sono sistematicamente sfruttabili tramite attacchi avversariali, rivelando che funzionano più come rilevatori di fluidità linguistica che come veri verificatori del ragionamento, e propone un nuovo framework diagnostico e benchmark per valutarne la robustezza prima del dispiegamento.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Questo studio valuta empiricamente modelli statistici e di deep learning per la previsione del carico elettrico a PJM, dimostrando che l'architettura Transformer, basata sull'attenzione, supera ARIMA, LSTM e BiLSTM con un errore percentuale medio (MAPE) del 3,8%.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Questo articolo offre una panoramica completa di Flow-GRPO, un quadro di apprendimento per rinforzo che estende l'ottimizzazione della politica relativa di gruppo ai modelli di generazione, analizzando sia i recenti avanzamenti metodologici che le applicazioni trasversali in ambiti come immagini, video, audio e modelli multimodali.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

← Precedente Successivo →