Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy

Gli autori propongono un'architettura che utilizza una misura intrinseca basata sulla varianza per quantificare l'eterogeneità nei dati di addestramento, permettendo una partizione del dataset in blocchi omogenei che, unita alla purificazione dei dati, porta a significativi miglioramenti dell'accuratezza nei modelli di apprendimento supervisionato.

Fenix W. Huang, Henning S. Mortveit, Christian M. Reidys2026-03-10🤖 cs.LG

How Far Can Unsupervised RLVR Scale LLM Training?

Questo lavoro analizza l'apprendimento per rinforzo non supervisionato con ricompense verificabili (URLVR), rivelando che i metodi intrinseci tendono al collasso del modello a causa di un allineamento errato tra confidenza e correttezza, mentre le ricompense esterne basate sull'asimmetria computazionale offrono una potenziale via di fuga per superare questi limiti di scalabilità.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Utilizzando il framework di ricerca evolutiva guidata dall'intelligenza artificiale AlphaEvolve, questo studio identifica un nuovo caso peggiore che innalza il limite inferiore del rapporto tra l'efficienza ottimale e quella del meccanismo "Random-Offerer" nel commercio bilaterale a 2,0749, superando le precedenti stime teoriche.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Structural Causal Bottleneck Models

Il paper introduce i modelli causali a collo di bottiglia strutturale (SCBM), una nuova classe di modelli causali che presuppone che gli effetti tra variabili ad alta dimensionalità dipendano solo da statistiche riassuntive a bassa dimensionalità, offrendo un framework flessibile per la riduzione della dimensionalità specifica per il compito e migliorando la stima degli effetti in contesti di apprendimento con pochi dati.

Simon Bing, Jonas Wahl, Jakob Runge2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Questo lavoro propone un algoritmo euristico di ottimizzazione congiunta per le architetture di Split Federated Learning che, selezionando strategicamente i livelli di partizione del modello e l'assegnazione dei client agli aggregatori, migliora l'accuratezza del 3% riducendo contemporaneamente il ritardo del 20% e il sovraccarico di comunicazione del 50% rispetto agli approcci esistenti.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

Il paper propone l'Agentic Critical Training (ACT), un paradigma di apprendimento per rinforzo che supera i limiti dell'imitazione addestrando gli agenti a identificare autonomamente le azioni migliori tra alternative, sviluppando così una genuina capacità di auto-riflessione che migliora significativamente le prestazioni e la generalizzazione rispetto ai metodi esistenti.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Il paper introduce "Impermanent", un nuovo benchmark live che valuta la generalizzazione temporale dei modelli di previsione delle serie temporali su dati in continua evoluzione (basati sull'attività GitHub), superando i limiti delle valutazioni statiche tradizionali per misurare la robustezza e la stabilità delle prestazioni in scenari di distribuzione non stazionaria.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Questo lavoro propone un framework interpretabile basato su concetti medici chiave e una rete GCN per spiegare le decisioni dei modelli di deep learning nella rilevazione dei piani di scansione fetale, allineandosi alla cognizione clinica e migliorando la trasparenza rispetto ai metodi tradizionali basati solo su caratteristiche a livello di pixel.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Graph Neural Networks on Factor Graphs for Robust, Fast, and Scalable Linear State Estimation with PMUs

Questo articolo presenta un metodo innovativo che utilizza le reti neurali su grafi (GNN) applicate a grafi fattoriali per realizzare una stima dello stato lineare rapida, scalabile e robusta nei sistemi di trasmissione elettrica dotati di unità di misura fasoriale (PMU), garantendo accuratezza e resilienza anche in caso di malfunzionamenti dei sensori.

Ognjen Kundacina, Mirsad Cosovic, Dragisa Miskovic + 1 more2026-03-09⚡ eess

A unified framework for learning with nonlinear model classes from arbitrary linear samples

Questo lavoro introduce un quadro unificato per l'apprendimento di oggetti in spazi di Hilbert tramite misurazioni lineari arbitrarie e modelli non lineari, stabilendo nuovi limiti di generalizzazione basati sulla variazione del modello e sull'entropia che unificano e migliorano risultati esistenti come il compressed sensing con modelli generativi.

Ben Adcock, Juan M. Cardenas, Nick Dexter2026-03-09🤖 cs.LG

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Questo articolo deriva stime teoriche sui limiti inferiori del consumo energetico per ottimizzatori neuromorfici basati sull'apprendimento in memoria, analizzando la termodinamica fuori equilibrio per determinare l'efficienza energetica in funzione di operazioni, dimensioni del modello, velocità di convergenza e precisione.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty2026-03-09🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Il paper propone un sistema di rilevamento delle allucinazioni visive strutturali in immagini di personaggi cartonesi generati da modelli Text-to-Image, che utilizza un modello Vision-Language potenziato dall'apprendimento in contesto con informazioni sulla posa (PA-ICVL) per ottenere miglioramenti significativi rispetto ai metodi basati solo su immagini RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI