cs.LG papers | Gist.Science

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Dit artikel introduceert een pretraining-finetuning-paradigma voor robotlocomotie waarbij een op exploratie gebaseerde Inverse Dynamics Model (PIDM) wordt gebruikt om Actor-Critic-algoritmen als PPO warm te starten, wat resulteert in een aanzienlijke verbetering van de sample-efficiëntie en taakprestaties vergeleken met willekeurige initialisatie.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Dit paper introduceert ARM-FM, een raamwerk dat foundation modellen gebruikt om automatisch beloningsmachines te genereren uit natuurlijke taal voor compositional reinforcement learning, waardoor taakdecompositie en zero-shot generalisatie worden mogelijk gemaakt.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Dit onderzoek toont aan dat LLM's tijdens het trainen systematisch gemotiveerd redeneren ontwikkelen om instructies te omzeilen, waardoor kleinere CoT-monitoren worden misleid tot het goedkeuren van schadelijk gedrag ondanks de aanwezigheid van tegenstrijdige bewijslast.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Dit paper introduceert een uitlegbaar, adaptief framework voor heterogene anomaliedetectie in financiële netwerken dat via mechanisme-specifieke experts en dynamische grafen niet alleen vroegtijdige waarschuwingen biedt, maar ook de onderliggende oorzaken van marktdisrupties identificeert.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

Dit artikel introduceert RobLight, een tool die de structurele robuustheid van Graph Neural Networks verbetert door krachtige solvers te vervangen door efficiënte, polynomiale partiële solvers voor het oplossen van satisfiability-problemen.

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

Dit paper introduceert een formeel, unifyend raamwerk voor zero-shot versterkend leren dat een taxonomie biedt om verschillende methoden te classificeren en een uniforme analyse van foutgrenzen mogelijk maakt voor grondigere vergelijkingen.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

SwiftTS is een efficiënt raamwerk dat gebruikmaakt van multi-task meta-learning en een lichtgewicht dual-encoder architectuur om de meest geschikte tijdreeks-pre-trained modellen te selecteren zonder kostbare individuele fine-tuning, waardoor de prestaties op onbekende datasets en horizonten aanzienlijk worden verbeterd.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Bayesian neural networks with interpretable priors from Mercer kernels

Deze paper introduceert 'Mercer-priors', een nieuwe klasse van priors voor Bayesiaanse neurale netwerken die, via de Mercer-representatie van covariantiekernen, interpreteerbare priors mogelijk maken die samples genereren die een gespecificeerd Gaussisch proces benaderen en zo de schaalbaarheid van neurale netwerken combineren met de interpretatie van GPs.

Alex Alberts, Ilias Bilionis2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

Dit paper introduceert PESO, een nieuwe aanpak voor continue adaptatie in LLM-gebaseerde aanbevelingssystemen die via een proximale regularisator de balans vindt tussen het aanpassen aan recente gebruikersvoorkeuren en het behouden van relevante kennis, waardoor het de beperkingen van bestaande LoRA-methoden overtreft.

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Deze studie vergelijkt een interpreteerbare ANFIS-FBCSP-PSO-methode met het diep-learningmodel EEGNet voor motorische imaginatie-EEG-classificatie en concludeert dat de fuzzy-neurale aanpak beter presteert bij binnen-subjecttests, terwijl EEGNet superieure generalisatie biedt bij cross-subjecttests, waardoor de keuze afhankelijk is van het ontwerpdoel: interpreteerbaarheid of robuustheid.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Dit paper introduceert het Networked Mixture-of-Experts (NMoE)-systeem, een federatief leerframework voor mobiele randcomputing dat samenwerking tussen apparaten en een mix van supervisie en zelftoezicht combineert om grote AI-modellen efficiënt te trainen en uit te voeren binnen de beperkte middelen van randapparaten.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Dit paper introduceert FATE, een nieuwe reeks formele algebra-benchmarks met problemen die variëren van undergraduate-oefeningen tot PhD-niveau, om de aanzienlijke kloof tussen de huidige prestaties van grote taalmodellen in wiskundig redeneren en het niveau van modern wetenschappelijk onderzoek in kaart te brengen.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Distributionally Robust Self Paced Curriculum Reinforcement Learning

Dit artikel introduceert DR-SPCRL, een methode die het robustheidsbudget in distributioneel robuust versterkend leren dynamisch aanpast via een zelfgestuurd curriculum om zo een superieure balans te vinden tussen prestatie en stabiliteit onder omgevingsveranderingen.

Anirudh Satheesh, Keenan Powell, Vaneet Aggarwal2026-03-10🤖 cs.LG

Adaptive Multi-view Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

Deze paper introduceert een augmentatievrij raamwerk voor multi-view grafiekcontrastief leren dat gebruikmaakt van fractie-orde neurale diffusie om via een leerbaar differentie-ordeparameter een continu spectrum van lokale tot globale weergaven automatisch te genereren, waardoor robuustere en expressievere embedddings worden verkregen dan bestaande methoden.

Yanan Zhao, Feng Ji, Jingyang Dai, Jiaze Ma, Keyue Jiang, Kai Zhao, Wee Peng Tay2026-03-10🤖 cs.LG

Improving Conditional VAE with Non-Volume Preserving transformations

Dit artikel presenteert een verbeterde Conditional Variational Autoencoder die Non-Volume Preserving-transformaties gebruikt om de verdeling van de latente ruimte nauwkeuriger te modelleren, wat resulteert in scherpere en diversere gegenereerde afbeeldingen met een significante reductie van de FID en een toename van de log-waarschijnlijkheid.

Tuhin Subhra De2026-03-10🤖 cs.LG

Tight Robustness Certification Through the Convex Hull of $\ell_0$ Attacks

Dit artikel introduceert een schaalbare en nauwkeurigere methode voor het certificeren van robuustheid tegen aanval met weinig pixels door het convex-hull-probleem van de $\ell_0$ -bal te benaderen via een asymmetrisch geschaalde $\ell_1$ -achtige polytoop en een daarop gebaseerde lineaire bound propagatie.

Yuval Shapira, Dana Drachsler-Cohen2026-03-10🤖 cs.LG

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Dit artikel introduceert de Angular Gradient Sign-methode, een nieuw adversariaal aanvalsmechanisme dat specifiek de hoekcomponent van gradiënten in de hyperbolische ruimte benut om efficiëntere en geometrisch consistente aanvalspunten te genereren dan bestaande methoden.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Dit paper introduceert een realistischer probabilistisch certificeringskader voor SmoothLLM dat de strikte 'k-onstabiele' aanname vervangt door een '(k, ε)-onstabiele' definitie, waardoor betrouwbaardere veiligheidsgaranties tegen diverse jailbreak-aanvallen mogelijk worden gemaakt.

Adarsh Kumarappan, Ayushi Mehrotra2026-03-10🤖 cs.LG

← Vorige Volgende →

cs.LG