cs.LG articoli | Gist.Science

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Il paper presenta SALVE, un quadro unificato che combina autoencoder sparsi e mappatura di salienza per scoprire, validare e controllare meccanicisticamente il comportamento delle reti neurali attraverso interventi precisi nello spazio dei pesi, garantendo sistemi di AI più trasparenti e controllabili.

Vegard Flovik2026-03-10🤖 cs.LG

Meta-RL Induces Exploration in Language Agents

Il paper presenta LaMer, un framework Meta-RL che permette agli agenti LLM di esplorare attivamente e adattarsi in tempo reale tramite riflessione, migliorando significativamente le prestazioni e la generalizzazione su compiti complessi rispetto alle tradizionali tecniche di apprendimento per rinforzo.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Il paper introduce Re-Depth Anything, un framework di auto-supervisione a test-time che migliora l'estimazione della profondità monoculari fondendo modelli fondazionali con prior di diffusione su larga scala per affinare le mappe di profondità tramite ricreazione dell'illuminazione e Score Distillation Sampling, ottenendo risultati all'avanguardia senza richiedere etichette.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Concurrent training methods for Kolmogorov-Arnold networks: Disjoint datasets and FPGA implementation

Questo articolo propone tre strategie complementari per accelerare l'addestramento delle reti Kolmogorov-Arnold (KAN) basate sul metodo Newton-Kaczmarz: un pre-addestramento strutturato, l'addestramento su sottoinsiemi di dati disgiunti con successiva fusione dei modelli e una tecnica di parallelizzazione implementata e testata su FPGA.

Andrew Polar, Michael Poluektov2026-03-10🤖 cs.LG

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Il paper propone "Latent Sculpting", un approccio di apprendimento gerarchico che combina un encoder Transformer con una perdita di scultura latente binaria e un flusso autoregressivo mascherato per modellare esplicitamente la struttura geometrica dei dati, permettendo così di rilevare con successo anomalie fuori distribuzione e attacchi zero-day nel traffico di rete senza necessità di esempi di addestramento specifici.

Rajeeb Thapa Chhetri, Saurab Thapa, Avinash Kumar, Zhixiong Chen2026-03-10🤖 cs.LG

Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

Il paper propone FedORA, un algoritmo basato su ottimizzazione primale-duale che certifica l'efficacia dell'oblio dei dati (sia a livello di campioni che di etichette) nell'apprendimento federato verticale, garantendo la rimozione delle influenze dei dati sensibili con costi computazionali ridotti rispetto al riaddestramento completo.

Yu Jiang, Xindi Tong, Ziyao Liu, Xiaoxi Zhang, Kwok-Yan Lam, Chee Wei Tan2026-03-10🤖 cs.LG

Network Traffic Analysis with Process Mining: The UPSIDE Case Study

Questo studio presenta un metodo basato sul process mining che analizza il traffico di rete dei videogiochi per caratterizzare stati operativi tramite reti di Petri interpretabili e classificare con accuratezza i titoli di gioco, come dimostrato nel caso di studio UPSIDE su Clash Royale e Rocket League.

Francesco Vitale, Paolo Palmiero, Massimiliano Rak, Nicola Mazzocca2026-03-10🤖 cs.LG

Topological Spatial Graph Coarsening

Questo lavoro propone un metodo di coarsening per grafi spaziali, privo di parametri e invariante rispetto a trasformazioni geometriche, che riduce la dimensione della rete preservandone le caratteristiche topologiche attraverso l'uso di un nuovo filtraggio "triangle-aware" e diagrammi di persistenza adattati.

Anna Calissano, Etienne Lasalle2026-03-10🤖 cs.LG

Sparse Offline Reinforcement Learning with Corruption Robustness

Questo lavoro propone metodi actor-critic con oracoli di stima robusta e sparsa che forniscono i primi garanzie non vuote per l'apprendimento di politiche quasi ottimali in MDP ad alta dimensionalità e sparsi, anche in presenza di forte corruzione dei dati e sotto l'ipotesi di concentrabilità di una singola politica.

Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal2026-03-10🤖 cs.LG

Group Cross-Correlations with Faintly Constrained Filters

Questo articolo propone vincoli più deboli per i filtri nelle reti neurali convoluzionali di gruppo, risolvendo incompatibilità con azioni non compatte e generalizzando i risultati precedenti a gruppi non unimodulari e azioni non transitive, riducendo al contempo il numero di nodi necessari.

Benedikt Fluhr2026-03-10🤖 cs.LG

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Questo studio introduce un framework di valutazione legibile agli operatori per la previsione del carico della rete elettrica, dimostrando che i modelli basati su spazi di stato (SSM) con integrazione meteorologica mirata offrono una maggiore affidabilità operativa rispetto alle metriche di accuratezza tradizionali, mentre evidenzia la necessità di vincoli specifici per evitare il rischio di "sicurezza finta" derivante da previsioni probabilistiche eccessivamente conservative.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

From Mice to Trains: Amortized Bayesian Inference on Graph Data

Questo lavoro adatta l'inferenza bayesiana ammortizzata ai dati grafici, proponendo una pipeline a due moduli che combina encoder grafici invariante per permutazione e stimatori neurali per effettuare un'inferenza rapida e senza verosimiglianza su parametri a livello di nodo, arco e grafo, con validazione su dati sintetici e reali nei campi della biologia e della logistica.

Svenja Jedhoff, Elizaveta Semenova, Aura Raulo, Anne Meyer, Paul-Christian Bürkner2026-03-10🤖 cs.LG

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench è un benchmark basato su dati reali di sviluppo che valuta le prestazioni dei modelli di linguaggio su compiti di completamento del codice, offrendo diagnosi dettagliate e metriche pratiche per guidare la selezione e il miglioramento dei modelli.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Questo lavoro è il primo sondaggio che esamina sistematicamente le interazioni bidirezionali tra i grandi modelli linguistici e gli algoritmi di multi-armed bandit a livello di componente, evidenziando come questi due campi si rafforzino reciprocamente per migliorare sia il processo decisionale adattivo che le capacità dei modelli linguistici.

Siguang Chen, Chunli Lv, Miao Xie2026-03-10🤖 cs.LG

ELSA: Efficient LLM-Centric Split Aggregation for Privacy-Aware Hierarchical Federated Learning over the Network Edge

Il paper presenta ELSA, un framework innovativo che integra split learning e apprendimento federato gerarchico per ottimizzare il fine-tuning distribuito di modelli linguistici su reti edge, risolvendo le sfide di risorse limitate, eterogeneità dei dati e privacy attraverso clustering intelligente, partizionamento dinamico del modello e tecniche di comunicazione efficienti e sicure.

Xiaohong Yang, Tong Xie, Minghui Liwang, Chikai Shang, Yang Lu, Zhenzhen Jiao, Liqun Fu, Seyyedali Hosseinalipour2026-03-10🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Questo lavoro presenta un'architettura CNN a flusso continuo e consapevole del tasso di dati per FPGA che risolve il problema del sottoutilizzo delle unità hardware nelle reti convoluzionali, garantendo un utilizzo vicino al 100% e permettendo l'implementazione di modelli complessi come MobileNet su un singolo dispositivo con elevata efficienza.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Il paper presenta MeanCache, un framework di caching senza addestramento che accelera l'inferenza del Flow Matching sostituendo la velocità istantanea con una velocità media derivata dai prodotti vettore-Jacobiano, ottenendo così un significativo aumento della velocità e una migliore qualità di generazione rispetto alle tecniche esistenti.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

PASS: Certified Subset Repair for Classical and Quantum Pairwise Constrained Clustering

PASS è un framework scalabile per il clustering k-means con vincoli pairwise che ottimizza un piccolo sottoinsieme di dati, risolve la fattibilità dei vincoli "cannot-link" tramite un problema di colorazione dei grafi e fornisce certificati di riparazione verificabili, permettendo così di ottenere soluzioni competitive con tempi di esecuzione ridotti anche su istanze dove i metodi tradizionali falliscono.

Pedro Chumpitaz-Flores, My Duong, Ying Mao, Kaixun Hua2026-03-10🤖 cs.LG

Model-Free Neural State Estimation in Nonlinear Dynamical Systems: Comparing Neural and Classical Filters

Questo studio presenta un confronto empirico sistematico tra modelli neurali privi di modello e filtri classici per la stima dello stato in sistemi dinamici non lineari, dimostrando che le architetture neurali, in particolare i modelli a spazio di stato, raggiungono prestazioni paragonabili ai filtri di Kalman non lineari più avanzati e superano le basi classiche più deboli, pur ottenendo un throughput di inferenza significativamente superiore senza richiedere la conoscenza delle equazioni del sistema.

Zhuochen Liu, Hans Walker, Rahul Jain2026-03-10🤖 cs.LG

TimeSliver : Symbolic-Linear Decomposition for Explainable Time Series Classification

Il paper presenta TimeSliver, un nuovo framework di deep learning per la classificazione di serie temporali che, decomponendo i dati in componenti simboliche e lineari, assegna punteggi di importanza a ogni segmento temporale garantendo sia un'elevata interpretabilità che prestazioni predittive competitive rispetto agli stati dell'arte.

Akash Pandey, Payal Mohapatra, Wei Chen, Qi Zhu, Sinan Keten2026-03-10🤖 cs.LG

← Precedente Successivo →