cs.LG articoli | Gist.Science

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Il paper presenta la Two-Bridge Map Suite, un nuovo benchmark open-source e accessibile per l'apprendimento per rinforzo che colma il divario tra le sfide computazionali di StarCraft II completo e la semplicità eccessiva dei suoi mini-giochi, isolando le abilità tattiche di navigazione e combattimento per facilitare la ricerca con risorse limitate.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Questo articolo presenta un metodo pratico che combina il Test di Randomizzazione Condizionata (CRT) con il modello fondazionale TabPFN per ottenere valori p validi in campioni finiti sulla rilevanza delle feature nei dati tabellari, senza necessità di riaddestramento del modello o assunzioni parametriche.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Il paper introduce CapTrack, un framework basato sulle capacità per valutare il "dimenticare" nei modelli linguistici post-addestrati non solo come perdita di conoscenze fattuali ma come deriva comportamentale sistematica, rivelando attraverso uno studio su larga scala che tale fenomeno compromette anche robustezza e comportamenti predefiniti, con l'addestramento su istruzioni che causa la maggiore deriva e l'ottimizzazione delle preferenze che offre una parziale mitigazione.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Il documento dimostra che, a differenza dei domini verificabili come la matematica, l'aumento della potenza di calcolo tramite strategie di consenso (come il Pass@k) non migliora l'affidabilità delle risposte dei modelli linguistici in ambiti non verificati, poiché gli errori dei modelli sono fortemente correlati e le aggregazioni tendono a rafforzare le concezioni errate condivise anziché filtrarle.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Il paper presenta OptiRoulette, un nuovo meta-ottimizzatore stocastico che seleziona dinamicamente le regole di aggiornamento durante l'addestramento, garantendo una convergenza più rapida e affidabile e migliorando significativamente l'accuratezza rispetto a AdamW su diverse suite di classificazione di immagini.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Questo paper propone una rappresentazione unificata per i modelli di diffusione e il flow matching tramite equazioni lineari, evidenziando attraverso l'analisi teorica come la debole correlazione tra i dati rumorosi e l'obiettivo previsto possa compromettere il processo di apprendimento.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Il paper propone il framework Annealed Co-Generation (ACG), che facilita la co-generazione multivariata in ambito scientifico sostituendo la modellazione congiunta ad alta dimensionalità con modelli di diffusione pairwise a bassa dimensionalità, allineati tramite un processo di ricottura a tre stadi per garantire coerenza senza necessità di ulteriore addestramento.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Il paper presenta RACER, un metodo di instradamento per i grandi modelli linguistici che, formulando il problema come $\alpha$ -VOR e utilizzando limiti di concentrazione finiti per la calibrazione, garantisce un controllo rigoroso del rischio di errore distribuendo le query su insiemi di modelli per migliorare l'accuratezza e gestire l'incertezza.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Il paper introduce Evo, un modello linguistico autoregressivo-diffusivo che unifica i due paradigmi in un flusso latente evolutivo, permettendo un bilanciamento adattivo tra generazione e pianificazione per ottenere risultati all'avanguardia su molteplici compiti mantenendo un'efficienza inferenziale elevata.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Il paper propone un nuovo framework basato sull'apprendimento rappresentazionale contestuale e sulla distillazione della conoscenza per migliorare la previsione delle interazioni in zero-shot nelle reti biologiche multiplex, superando i limiti dei metodi esistenti nella modellazione della multiplicità e nell'integrazione di informazioni strutturali e sequenziali.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Il paper introduce GraphSkill, un framework agentic che migliora il ragionamento su grafi complessi tramite un recupero gerarchico guidato dalla documentazione e un agente di autodebugging, validato su un nuovo dataset dedicato.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Il paper dimostra che i Process Reward Models (PRM) all'avanguardia sono sistematicamente sfruttabili tramite attacchi avversariali, rivelando che funzionano più come rilevatori di fluidità linguistica che come veri verificatori del ragionamento, e propone un nuovo framework diagnostico e benchmark per valutarne la robustezza prima del dispiegamento.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Questo studio valuta empiricamente modelli statistici e di deep learning per la previsione del carico elettrico a PJM, dimostrando che l'architettura Transformer, basata sull'attenzione, supera ARIMA, LSTM e BiLSTM con un errore percentuale medio (MAPE) del 3,8%.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Questo articolo offre una panoramica completa di Flow-GRPO, un quadro di apprendimento per rinforzo che estende l'ottimizzazione della politica relativa di gruppo ai modelli di generazione, analizzando sia i recenti avanzamenti metodologici che le applicazioni trasversali in ambiti come immagini, video, audio e modelli multimodali.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Il documento presenta la Teoria dello Spazio di Esplorazione (EST), un quadro formale basato sulla teoria degli spazi di conoscenza e sull'analisi dei concetti formali che modella le dipendenze prerequisito tra punti di interesse per garantire raccomandazioni strutturalmente valide, spiegabili e ottimali all'interno di sistemi di raccomandazione basati sulla posizione.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Questo articolo propone un modello di reti neurali su grafo basato sull'apprendimento collettivo per imputare i dati mancanti sulle condizioni del manto stradale, sfruttando le relazioni di dipendenza tra sezioni adiacenti per superare i limiti dei metodi tradizionali.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Il paper introduce Grouter, un metodo di instradamento preemptive che decuplica l'ottimizzazione strutturale dagli aggiornamenti dei pesi nei modelli Mixture-of-Experts (MoE) per accelerare significativamente la convergenza e il throughput dell'addestramento.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Il paper presenta T-REX, un'architettura transformer innovativa progettata per la raccomandazione di categorie di prodotti nella spesa online, che supera i limiti dei modelli esistenti gestendo efficacemente le dipendenze temporali e le relazioni tra articoli attraverso un approccio di mascheramento causale e una modellazione a livello di categoria.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

← Precedente Successivo →