Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Il paper presenta la Two-Bridge Map Suite, un nuovo benchmark open-source e accessibile per l'apprendimento per rinforzo che colma il divario tra le sfide computazionali di StarCraft II completo e la semplicità eccessiva dei suoi mini-giochi, isolando le abilità tattiche di navigazione e combattimento per facilitare la ricerca con risorse limitate.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Il paper introduce CapTrack, un framework basato sulle capacità per valutare il "dimenticare" nei modelli linguistici post-addestrati non solo come perdita di conoscenze fattuali ma come deriva comportamentale sistematica, rivelando attraverso uno studio su larga scala che tale fenomeno compromette anche robustezza e comportamenti predefiniti, con l'addestramento su istruzioni che causa la maggiore deriva e l'ottimizzazione delle preferenze che offre una parziale mitigazione.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Il documento dimostra che, a differenza dei domini verificabili come la matematica, l'aumento della potenza di calcolo tramite strategie di consenso (come il Pass@k) non migliora l'affidabilità delle risposte dei modelli linguistici in ambiti non verificati, poiché gli errori dei modelli sono fortemente correlati e le aggregazioni tendono a rafforzare le concezioni errate condivise anziché filtrarle.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Il paper propone il framework Annealed Co-Generation (ACG), che facilita la co-generazione multivariata in ambito scientifico sostituendo la modellazione congiunta ad alta dimensionalità con modelli di diffusione pairwise a bassa dimensionalità, allineati tramite un processo di ricottura a tre stadi per garantire coerenza senza necessità di ulteriore addestramento.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Il paper introduce Evo, un modello linguistico autoregressivo-diffusivo che unifica i due paradigmi in un flusso latente evolutivo, permettendo un bilanciamento adattivo tra generazione e pianificazione per ottenere risultati all'avanguardia su molteplici compiti mantenendo un'efficienza inferenziale elevata.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Il paper propone un nuovo framework basato sull'apprendimento rappresentazionale contestuale e sulla distillazione della conoscenza per migliorare la previsione delle interazioni in zero-shot nelle reti biologiche multiplex, superando i limiti dei metodi esistenti nella modellazione della multiplicità e nell'integrazione di informazioni strutturali e sequenziali.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Il paper dimostra che i Process Reward Models (PRM) all'avanguardia sono sistematicamente sfruttabili tramite attacchi avversariali, rivelando che funzionano più come rilevatori di fluidità linguistica che come veri verificatori del ragionamento, e propone un nuovo framework diagnostico e benchmark per valutarne la robustezza prima del dispiegamento.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Il documento presenta la Teoria dello Spazio di Esplorazione (EST), un quadro formale basato sulla teoria degli spazi di conoscenza e sull'analisi dei concetti formali che modella le dipendenze prerequisito tra punti di interesse per garantire raccomandazioni strutturalmente valide, spiegabili e ottimali all'interno di sistemi di raccomandazione basati sulla posizione.

Madjid Sadallah2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Il paper presenta T-REX, un'architettura transformer innovativa progettata per la raccomandazione di categorie di prodotti nella spesa online, che supera i limiti dei modelli esistenti gestendo efficacemente le dipendenze temporali e le relazioni tra articoli attraverso un approccio di mascheramento causale e una modellazione a livello di categoria.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG