Scale Dependent Data Duplication

Questo studio dimostra che la duplicazione dei dati è dipendente dalla scala, rivelando come le copie semantiche diventino sempre più dannose per i modelli di grandi dimensioni a causa di gradienti allineati e collisioni semantiche accelerate, portando a derive nelle leggi di scaling che possono essere quantificate tramite nuove formule predittive.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Questo paper introduce un metodo per allineare la confidenza degli LLM alla correttezza delle loro risposte utilizzando punteggi normalizzati basati su token di ancoraggio, dimostrando che il fine-tuning supervisionato migliora l'affidabilità rispetto ai metodi di apprendimento per rinforzo e abilitando applicazioni pratiche come la generazione aumentata da recupero adattiva.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Il paper presenta STAR Set Transformer, un modello che migliora l'analisi delle serie temporali cliniche asincrone introducendo bias di attenzione temporale e di tipo variabile per preservare la struttura dei dati senza ricorrere all'imputazione, ottenendo prestazioni superiori su compiti predittivi in terapia intensiva.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Questo lavoro propone un benchmark sistematico basato su giochi di interferenza progressivamente complessi e dataset su larga scala per valutare le prestazioni degli algoritmi di apprendimento per rinforzo multi-agente nell'allocazione delle risorse V2X, identificando la robustezza e la generalizzazione delle policy su diverse topologie veicolari come la sfida principale e dimostrando la superiorità dei metodi actor-critic rispetto a quelli basati sul valore.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Il paper presenta la Two-Bridge Map Suite, un nuovo benchmark open-source e accessibile per l'apprendimento per rinforzo che colma il divario tra le sfide computazionali di StarCraft II completo e la semplicità eccessiva dei suoi mini-giochi, isolando le abilità tattiche di navigazione e combattimento per facilitare la ricerca con risorse limitate.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Il paper introduce CapTrack, un framework basato sulle capacità per valutare il "dimenticare" nei modelli linguistici post-addestrati non solo come perdita di conoscenze fattuali ma come deriva comportamentale sistematica, rivelando attraverso uno studio su larga scala che tale fenomeno compromette anche robustezza e comportamenti predefiniti, con l'addestramento su istruzioni che causa la maggiore deriva e l'ottimizzazione delle preferenze che offre una parziale mitigazione.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Questo articolo presenta DeepScope, un sistema basato sull'intelligenza artificiale che analizza immagini microscopiche di campioni d'acqua non incubati per rilevare la contaminazione fecale in pochi secondi con un costo di 0,44 dollari per test, superando così i requisiti di velocità e accessibilità degli attuali metodi di sicurezza idrica.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Il documento dimostra che, a differenza dei domini verificabili come la matematica, l'aumento della potenza di calcolo tramite strategie di consenso (come il Pass@k) non migliora l'affidabilità delle risposte dei modelli linguistici in ambiti non verificati, poiché gli errori dei modelli sono fortemente correlati e le aggregazioni tendono a rafforzare le concezioni errate condivise anziché filtrarle.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Il paper propone il framework Annealed Co-Generation (ACG), che facilita la co-generazione multivariata in ambito scientifico sostituendo la modellazione congiunta ad alta dimensionalità con modelli di diffusione pairwise a bassa dimensionalità, allineati tramite un processo di ricottura a tre stadi per garantire coerenza senza necessità di ulteriore addestramento.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Il paper introduce Evo, un modello linguistico autoregressivo-diffusivo che unifica i due paradigmi in un flusso latente evolutivo, permettendo un bilanciamento adattivo tra generazione e pianificazione per ottenere risultati all'avanguardia su molteplici compiti mantenendo un'efficienza inferenziale elevata.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Il paper propone un nuovo framework basato sull'apprendimento rappresentazionale contestuale e sulla distillazione della conoscenza per migliorare la previsione delle interazioni in zero-shot nelle reti biologiche multiplex, superando i limiti dei metodi esistenti nella modellazione della multiplicità e nell'integrazione di informazioni strutturali e sequenziali.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Il paper introduce NAT (Not All Tokens Are Needed), un framework di apprendimento per rinforzo che ottimizza l'efficienza computazionale aggiornando la politica solo su un sottoinsieme di token tramite una stima del gradiente non distorta, riducendo significativamente costi e memoria senza compromettere le prestazioni su compiti di ragionamento matematico.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Il paper dimostra che i Process Reward Models (PRM) all'avanguardia sono sistematicamente sfruttabili tramite attacchi avversariali, rivelando che funzionano più come rilevatori di fluidità linguistica che come veri verificatori del ragionamento, e propone un nuovo framework diagnostico e benchmark per valutarne la robustezza prima del dispiegamento.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG