cs.LG articoli | Gist.Science

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

Il paper presenta DROCO, un nuovo algoritmo di apprendimento per rinforzo offline cross-domain che garantisce robustezza sia durante l'addestramento che al test, affrontando gli spostamenti dinamici attraverso un innovativo operatore di Bellman robusto e tecniche di penalizzazione del valore.

Zhongjian Qiao, Rui Yang, Jiafei Lyu, Xiu Li, Zhongxiang Dai, Zhuoran Yang, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

Il paper presenta GoRL, un framework che risolve il compromesso tra stabilità di ottimizzazione e capacità rappresentativa nell'apprendimento per rinforzo online, decoupling l'ottimizzazione della politica da uno spazio latente trattabile e la generazione delle azioni in uno spazio espressivo, ottenendo prestazioni superiori su compiti di controllo continuo.

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An2026-03-10🤖 cs.LG

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Il documento presenta la Sparse Isotonic Shapley Regression (SISR), un nuovo framework unificato per l'IA spiegabile che supera i limiti dell'additività e della densità dei valori Shapley tradizionali, apprendendo simultaneamente una trasformazione monotona non lineare e imponendo vincoli di sparsità per fornire attribuzioni robuste, efficienti e teoricamente fondate in scenari complessi.

Jialai She2026-03-10🤖 cs.LG

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Questo lavoro propone un framework di augmentation dati a due fasi che combina warping basato su regole e traduzione immagine-immagine tramite GAN per generare volti con mascherine realistici, ottenendo miglioramenti significativi nella rilevazione e riconoscimento anche con un set di addestramento molto ridotto rispetto ai metodi esistenti.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Il paper presenta SALVE, un quadro unificato che combina autoencoder sparsi e mappatura di salienza per scoprire, validare e controllare meccanicisticamente il comportamento delle reti neurali attraverso interventi precisi nello spazio dei pesi, garantendo sistemi di AI più trasparenti e controllabili.

Vegard Flovik2026-03-10🤖 cs.LG

Meta-RL Induces Exploration in Language Agents

Il paper presenta LaMer, un framework Meta-RL che permette agli agenti LLM di esplorare attivamente e adattarsi in tempo reale tramite riflessione, migliorando significativamente le prestazioni e la generalizzazione su compiti complessi rispetto alle tradizionali tecniche di apprendimento per rinforzo.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Il paper introduce Re-Depth Anything, un framework di auto-supervisione a test-time che migliora l'estimazione della profondità monoculari fondendo modelli fondazionali con prior di diffusione su larga scala per affinare le mappe di profondità tramite ricreazione dell'illuminazione e Score Distillation Sampling, ottenendo risultati all'avanguardia senza richiedere etichette.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Concurrent training methods for Kolmogorov-Arnold networks: Disjoint datasets and FPGA implementation

Questo articolo propone tre strategie complementari per accelerare l'addestramento delle reti Kolmogorov-Arnold (KAN) basate sul metodo Newton-Kaczmarz: un pre-addestramento strutturato, l'addestramento su sottoinsiemi di dati disgiunti con successiva fusione dei modelli e una tecnica di parallelizzazione implementata e testata su FPGA.

Andrew Polar, Michael Poluektov2026-03-10🤖 cs.LG

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Il paper propone "Latent Sculpting", un approccio di apprendimento gerarchico che combina un encoder Transformer con una perdita di scultura latente binaria e un flusso autoregressivo mascherato per modellare esplicitamente la struttura geometrica dei dati, permettendo così di rilevare con successo anomalie fuori distribuzione e attacchi zero-day nel traffico di rete senza necessità di esempi di addestramento specifici.

Rajeeb Thapa Chhetri, Saurab Thapa, Avinash Kumar, Zhixiong Chen2026-03-10🤖 cs.LG

Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

Il paper propone FedORA, un algoritmo basato su ottimizzazione primale-duale che certifica l'efficacia dell'oblio dei dati (sia a livello di campioni che di etichette) nell'apprendimento federato verticale, garantendo la rimozione delle influenze dei dati sensibili con costi computazionali ridotti rispetto al riaddestramento completo.

Yu Jiang, Xindi Tong, Ziyao Liu, Xiaoxi Zhang, Kwok-Yan Lam, Chee Wei Tan2026-03-10🤖 cs.LG

Network Traffic Analysis with Process Mining: The UPSIDE Case Study

Questo studio presenta un metodo basato sul process mining che analizza il traffico di rete dei videogiochi per caratterizzare stati operativi tramite reti di Petri interpretabili e classificare con accuratezza i titoli di gioco, come dimostrato nel caso di studio UPSIDE su Clash Royale e Rocket League.

Francesco Vitale, Paolo Palmiero, Massimiliano Rak, Nicola Mazzocca2026-03-10🤖 cs.LG

Topological Spatial Graph Coarsening

Questo lavoro propone un metodo di coarsening per grafi spaziali, privo di parametri e invariante rispetto a trasformazioni geometriche, che riduce la dimensione della rete preservandone le caratteristiche topologiche attraverso l'uso di un nuovo filtraggio "triangle-aware" e diagrammi di persistenza adattati.

Anna Calissano, Etienne Lasalle2026-03-10🤖 cs.LG

Sparse Offline Reinforcement Learning with Corruption Robustness

Questo lavoro propone metodi actor-critic con oracoli di stima robusta e sparsa che forniscono i primi garanzie non vuote per l'apprendimento di politiche quasi ottimali in MDP ad alta dimensionalità e sparsi, anche in presenza di forte corruzione dei dati e sotto l'ipotesi di concentrabilità di una singola politica.

Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal2026-03-10🤖 cs.LG

Group Cross-Correlations with Faintly Constrained Filters

Questo articolo propone vincoli più deboli per i filtri nelle reti neurali convoluzionali di gruppo, risolvendo incompatibilità con azioni non compatte e generalizzando i risultati precedenti a gruppi non unimodulari e azioni non transitive, riducendo al contempo il numero di nodi necessari.

Benedikt Fluhr2026-03-10🤖 cs.LG

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Questo studio introduce un framework di valutazione legibile agli operatori per la previsione del carico della rete elettrica, dimostrando che i modelli basati su spazi di stato (SSM) con integrazione meteorologica mirata offrono una maggiore affidabilità operativa rispetto alle metriche di accuratezza tradizionali, mentre evidenzia la necessità di vincoli specifici per evitare il rischio di "sicurezza finta" derivante da previsioni probabilistiche eccessivamente conservative.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

From Mice to Trains: Amortized Bayesian Inference on Graph Data

Questo lavoro adatta l'inferenza bayesiana ammortizzata ai dati grafici, proponendo una pipeline a due moduli che combina encoder grafici invariante per permutazione e stimatori neurali per effettuare un'inferenza rapida e senza verosimiglianza su parametri a livello di nodo, arco e grafo, con validazione su dati sintetici e reali nei campi della biologia e della logistica.

Svenja Jedhoff, Elizaveta Semenova, Aura Raulo, Anne Meyer, Paul-Christian Bürkner2026-03-10🤖 cs.LG

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench è un benchmark basato su dati reali di sviluppo che valuta le prestazioni dei modelli di linguaggio su compiti di completamento del codice, offrendo diagnosi dettagliate e metriche pratiche per guidare la selezione e il miglioramento dei modelli.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Questo lavoro è il primo sondaggio che esamina sistematicamente le interazioni bidirezionali tra i grandi modelli linguistici e gli algoritmi di multi-armed bandit a livello di componente, evidenziando come questi due campi si rafforzino reciprocamente per migliorare sia il processo decisionale adattivo che le capacità dei modelli linguistici.

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

ELSA: Efficient LLM-Centric Split Aggregation for Privacy-Aware Hierarchical Federated Learning over the Network Edge

Il paper presenta ELSA, un framework innovativo che integra split learning e apprendimento federato gerarchico per ottimizzare il fine-tuning distribuito di modelli linguistici su reti edge, risolvendo le sfide di risorse limitate, eterogeneità dei dati e privacy attraverso clustering intelligente, partizionamento dinamico del modello e tecniche di comunicazione efficienti e sicure.

Xiaohong Yang, Tong Xie, Minghui Liwang, Chikai Shang, Yang Lu, Zhenzhen Jiao, Liqun Fu, Seyyedali Hosseinalipour2026-03-10🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Questo lavoro presenta un'architettura CNN a flusso continuo e consapevole del tasso di dati per FPGA che risolve il problema del sottoutilizzo delle unità hardware nelle reti convoluzionali, garantendo un utilizzo vicino al 100% e permettendo l'implementazione di modelli complessi come MobileNet su un singolo dispositivo con elevata efficienza.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

← Precedente Successivo →