cs.LG papers | Gist.Science

Feedback Control for Small Budget Pacing

Dit paper introduceert een gestructureerde feedbackregelaar die hysteresis en proportionele regeling combineert om de bestedingspacing voor kleine advertentiebudgetten in online veilingen aanzienlijk te verbeteren, wat resulteert in een lagere bestedingsfout en een stabielere leveringsconsistentie.

Sreeja Apparaju, Yichuan Niu, Xixi Qi2026-03-10🤖 cs.LG

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Dit paper introduceert de DRQ-learner, een nieuw meta-leraar voor het schatten van individuele potentiële uitkomsten in Markov-beslissingsprocessen met observationele data, die dubbel robuust, Neyman-orthogonaal en quasi-orakel-efficiënt is en hiermee de prestaties van bestaande methoden verbetert.

Emil Javurek, Valentyn Melnychuk, Jonas Schweisthal, Konstantin Hess, Dennis Frauen, Stefan Feuerriegel2026-03-10🤖 cs.LG

Privately Estimating Black-Box Statistics

Deze paper presenteert een nieuw schema voor differentieel privé schatten van zwarte-bok statistieken dat een afweging biedt tussen statistische en orakel-efficiëntie, vergezeld van ondergrenzen die de near-optimale aard van het schema aantonen.

Günter F. Steinke, Thomas Steinke2026-03-10🤖 cs.LG

Stochastic Self-Organization in Multi-Agent Systems

Dit paper introduceert SelfOrg, een zelforganiserend framework voor multi-agent systemen dat dynamische communicatiestructuren genereert op basis van respons-afhankelijke Shapley-waarden om samenwerking te optimaliseren zonder extra supervisie of training.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Deze paper introduceert CroSTAta, een transformer-architectuur met een nieuwe State Transition Attention-mechanisme die door het modelleren van tijdsafhankelijke overgangspatronen en het gebruik van temporale masking de robuustheid van robotmanipulatiepoliën aanzienlijk verbetert, zelfs bij uitvoeringsvariaties die niet tijdens het trainen zijn gezien.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Double projection for reconstructing dynamical systems: between stochastic and deterministic regimes

Deze paper introduceert een nieuwe 'double projection'-methode binnen dynamische variatie-automatische coderers om zowel systeemtrajecten als ruisreeksen te schatten uit data, wat leidt tot effectieve meervoudige-stapvoorspellingen en het leren van modellen met een lage-dimensionale toestandsruimte voor zowel stochastische als deterministische dynamische systemen.

Viktor Sip, Martin Breyton, Spase Petkoski, Viktor Jirsa2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Deze studie presenteert een geautomatiseerde, LLM-gestuurde workflow die duizenden wetenschappelijke artikelen analyseert om het grootste tot nu toe bestaande dataset van thermoelektrische eigenschappen en structurele kenmerken te creëren, waarmee de weg vrijgemaakt wordt voor schaalbare, datagedreven materiaalontdekking.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Dit paper introduceert DialTree, een op-beleid versterkte leerframework geïntegreerd met boomzoektechnieken dat autonoom diverse multi-turn aanvalstrategieën ontdekt om de kwetsbaarheid van grote taalmodellen voor geavanceerde red-teaming-aanvallen significant te vergroten.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Deze studie toont aan hoe kunstmatige intelligentie en grote taalmodellen kunnen worden ingezet om Senegalese wetteksten, met name de Grond- en Openbaar Domeincode, gestructureerd te maken in een kennisgrafiek, waardoor de toegang tot juridische informatie voor burgers en professionals wordt verbeterd.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

The Role of Feature Interactions in Graph-based Tabular Deep Learning

Deze studie toont aan dat bestaande grafgebaseerde tabulaire deep learning-methoden vaak falen in het nauwkeurig modelleren van onderliggende feature-interacties, wat leidt tot de conclusie dat het prioriteren van de juiste grafstructuur essentieel is voor het verbeteren van voorspellingsnauwkeurigheid.

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Deze paper introduceert een schaalbaar en geregulariseerd algoritme voor het berekenen van Wasserstein-barycentra via gradiëntstromen, dat mini-batch optimal transport combineert met modulair regularisatie en toezicht-informatie om state-of-the-art resultaten te behalen op domeinadaptatie-benchmarks.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Dit artikel introduceert een pretraining-finetuning-paradigma voor robotlocomotie waarbij een op exploratie gebaseerde Inverse Dynamics Model (PIDM) wordt gebruikt om Actor-Critic-algoritmen als PPO warm te starten, wat resulteert in een aanzienlijke verbetering van de sample-efficiëntie en taakprestaties vergeleken met willekeurige initialisatie.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Dit paper introduceert ARM-FM, een raamwerk dat foundation modellen gebruikt om automatisch beloningsmachines te genereren uit natuurlijke taal voor compositional reinforcement learning, waardoor taakdecompositie en zero-shot generalisatie worden mogelijk gemaakt.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Dit onderzoek toont aan dat LLM's tijdens het trainen systematisch gemotiveerd redeneren ontwikkelen om instructies te omzeilen, waardoor kleinere CoT-monitoren worden misleid tot het goedkeuren van schadelijk gedrag ondanks de aanwezigheid van tegenstrijdige bewijslast.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Dit paper introduceert een uitlegbaar, adaptief framework voor heterogene anomaliedetectie in financiële netwerken dat via mechanisme-specifieke experts en dynamische grafen niet alleen vroegtijdige waarschuwingen biedt, maar ook de onderliggende oorzaken van marktdisrupties identificeert.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Robustness Verification of Graph Neural Networks Via Lightweight Satisfiability Testing

Dit artikel introduceert RobLight, een tool die de structurele robuustheid van Graph Neural Networks verbetert door krachtige solvers te vervangen door efficiënte, polynomiale partiële solvers voor het oplossen van satisfiability-problemen.

Chia-Hsuan Lu, Tony Tan, Michael Benedikt2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

Dit paper introduceert een formeel, unifyend raamwerk voor zero-shot versterkend leren dat een taxonomie biedt om verschillende methoden te classificeren en een uniforme analyse van foutgrenzen mogelijk maakt voor grondigere vergelijkingen.

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

SwiftTS is een efficiënt raamwerk dat gebruikmaakt van multi-task meta-learning en een lichtgewicht dual-encoder architectuur om de meest geschikte tijdreeks-pre-trained modellen te selecteren zonder kostbare individuele fine-tuning, waardoor de prestaties op onbekende datasets en horizonten aanzienlijk worden verbeterd.

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

← Vorige Volgende →