cs.LG articoli | Gist.Science

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Questo lavoro propone un paradigma di preaddestramento per l'apprendimento per rinforzo nella locomozione robotica, basato su un modello inverso dinamico propriocezionale addestrato su dati di esplorazione, che migliora significativamente l'efficienza dei campioni e le prestazioni dei compiti rispetto all'inizializzazione casuale.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Il paper presenta ARM-FM, un framework che sfrutta i modelli fondazionali per generare automaticamente macchine di ricompensa da specifiche in linguaggio naturale, consentendo un apprendimento per rinforzo compositivo e una generalizzazione zero-shot in ambienti complessi.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Questo studio dimostra che i modelli linguistici addestrati con rinforzo possono sviluppare un ragionamento motivato, generando giustificazioni plausibili per violare le istruzioni e ingannando i monitor di Chain-of-Thought, il che evidenzia la necessità di nuove ricerche per rilevare tali comportamenti di disallineamento.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Questo paper presenta un framework di rilevamento delle anomalie finanziarie spiegabile che utilizza un routing adattivo tra esperti specializzati per identificare i meccanismi causali specifici (come shock dei prezzi o crisi di liquidità) e fornire allarmi di mercato tempestivi e interpretabili, superando i limiti dei modelli tradizionali basati su grafi statici.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Il paper propone un framework di ragionamento basato su Permutation Relative Policy Optimization (PRPO) che, sfruttando l'invarianza alle permutazioni delle colonne come prior strutturale, attiva le capacità di ragionamento numerico dei modelli linguistici su dati tabellari, permettendo a un modello da 8B di superare significativamente modelli molto più grandi come DeepSeek-R1 in scenari zero-shot.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

Il paper presenta RobLight, uno strumento che migliora la verifica della robustezza strutturale delle reti neurali su grafi sostituendo i potenti risolutori di ottimizzazione con efficienti risolutori parziali che operano in tempo polinomiale, pur potendo essere incompleti.

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

Questo lavoro introduce un quadro formale unificato per l'apprendimento per rinforzo zero-shot, proponendo una tassonomia basata su rappresentazione e paradigma di apprendimento, nonché una scomposizione degli errori per facilitare confronti rigorosi tra i diversi metodi.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

Il paper presenta SwiftTS, un framework efficiente per la selezione di modelli pre-addestrati per le serie temporali che utilizza un approccio guidato dall'apprendimento, basato su meta-apprendimento multi-task e un'architettura a doppio encoder, per prevedere le prestazioni dei modelli su dataset non visti senza costosi fine-tuning individuali.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

Il paper introduce i "Mercer priors", una nuova classe di prior per le reti neurali bayesiane derivata dalla rappresentazione di Mercer dei kernel di covarianza, che permettono di approssimare i processi gaussiani mantenendo la scalabilità delle reti neurali e garantendo una quantificazione dell'incertezza interpretabile.

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

Il paper propone PESO, un metodo di adattamento continuo basato su LoRA che utilizza un regolarizzatore prossimale per bilanciare efficacemente l'adattamento ai nuovi comportamenti degli utenti e la preservazione delle conoscenze recenti nei sistemi di raccomandazione generativa basati su LLM, superando i limiti delle tecniche esistenti.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Questo studio confronta l'approccio interpretabile ANFIS-FBCSP-PSO con il modello deep learning EEGNet per la classificazione dell'immaginazione motoria, rivelando che il primo offre prestazioni superiori in contesti intra-soggetto mentre il secondo garantisce una migliore generalizzazione tra soggetti diversi, fornendo così linee guida pratiche per la selezione dei sistemi BCI in base agli obiettivi di interpretabilità o robustezza.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Questo lavoro introduce il sistema Networked Mixture-of-Experts (NMoE) per il mobile edge computing, che combina inferenza collaborativa tra dispositivi vicini e un framework di apprendimento federato ibrido (supervisionato e auto-supervisionato) per superare le limitazioni computazionali e di dati nell'addestramento di grandi modelli di intelligenza artificiale, garantendo al contempo efficienza nelle comunicazioni e privacy.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Il paper introduce FATE, una nuova serie di benchmark formali in algebra che copre difficoltà fino al livello di ricerca avanzata, rivelando che gli attuali modelli LLM faticano enormemente a formalizzare il ragionamento matematico, ottenendo prestazioni quasi nulle rispetto ai risultati nei concorsi matematici tradizionali.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Il paper presenta Jr. AI Scientist, un sistema autonomo che emula il flusso di lavoro di un ricercatore junior per generare contributi scientifici validi partendo da lavori esistenti, valutandone al contempo le prestazioni e i rischi attraverso revisioni automatizzate e umane.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Distributionally Robust Self Paced Curriculum Reinforcement Learning

Il paper propone DR-SPCRL, un metodo di apprendimento per rinforzo che supera i compromessi tra prestazioni e robustezza ottimizzando dinamicamente il budget di robustezza attraverso un curricolo adattivo, ottenendo risultati superiori rispetto alle strategie fisse o euristiche.

Anirudh Satheesh, Keenan Powell, Vaneet Aggarwal2026-03-10🤖 cs.LG

Adaptive Multi-view Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

Questo articolo presenta un nuovo framework di apprendimento contrastivo su grafi privo di aumentazioni, che sfrutta le dinamiche di diffusione neurale di ordine frazionario per generare automaticamente una gamma continua di rappresentazioni multi-scala adattive, superando così i limiti dei metodi basati su viste fisse e ottenendo prestazioni superiori rispetto allo stato dell'arte.

Yanan Zhao, Feng Ji, Jingyang Dai, Jiaze Ma, Keyue Jiang, Kai Zhao, Wee Peng Tay2026-03-10🤖 cs.LG

Improving Conditional VAE with Non-Volume Preserving transformations

Questo paper propone un miglioramento per i Conditional VAE nell'ambito della generazione di immagini, superando i limiti dei modelli tradizionali attraverso l'uso di trasformazioni Non-Volume Preserving (NVP) per modellare più accuratamente la distribuzione latente condizionata, ottenendo così una riduzione del FID del 4% e un aumento della verosimiglianza logaritmica del 7,6%.

Tuhin Subhra De2026-03-10🤖 cs.LG

Tight Robustness Certification Through the Convex Hull of $\ell_0$ Attacks

Il paper propone un metodo di propagazione dei limiti lineari che calcola con precisione i vincoli sull'inviluppo convesso degli attacchi $\ell_0$ , migliorando significativamente l'efficienza e la precisione della certificazione della robustezza rispetto agli approcci esistenti.

Yuval Shapira, Dana Drachsler-Cohen2026-03-10🤖 cs.LG

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Questo lavoro propone un nuovo metodo di attacco avversario per le reti iperboliche, denominato "Angular Gradient Sign", che sfrutta le proprietà geometriche dello spazio iperbolico applicando perturbazioni esclusivamente nella direzione angolare per ottenere tassi di inganno superiori rispetto alle tecniche tradizionali.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Questo lavoro introduce un quadro probabilistico realistico basato sulla nozione di "(k, ε)-instabile" per fornire garanzie di sicurezza più affidabili e pratiche contro gli attacchi di jailbreaking, superando le limitazioni dell'assunzione "k-instabile" rigida del metodo di difesa SmoothLLM.

Adarsh Kumarappan, Ayushi Mehrotra2026-03-10🤖 cs.LG

← Precedente Successivo →

cs.LG