cs.LG papers | Gist.Science

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Dit paper introduceert NePPO, een nieuwe MARL-pijplijn die een speler-onafhankelijke potentiefunctie leert om bij benadering een Nash-evenwicht te vinden in algemene som-spellen, wat empirisch superieure prestaties laat zien ten opzichte van bestaande methoden zoals MAPPO en MADDPG.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Het paper introduceert Diffusion Controller (DiffCon), een unificerend controle-theoretisch kader dat reverse diffusion sampling als stochastische besturing ziet, waardoor er efficiënte versterkingsleer-methoden en een lichtgewicht zijnetwerk-parameterisatie ontstaan die de prestaties van gefinetunteerde diffusiemodellen verbeteren.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Dit paper toont aan dat beleidsmaatregelen die zich uitsluitend op een gemiddeld causaal effect (ATE) van nul baseren, kunnen leiden tot "causale masking" waarbij ongelijkheid wordt vermomd door verstorende factoren, wat pleit voor regelgeving op modelniveau in plaats van op besluitniveau.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Dit paper introduceert een methode die Multimodal Large Language Models (MLLMs) gebruikt om binnen het AdaFlock-framework snel interpreteerbare audio-attributes te ontdekken voor low-resource classificatie, wat resulteert in een efficiënter en nauwkeuriger ensemble-classificatiesysteem dan directe MLLM-predicties of menselijke benaderingen.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Deze paper introduceert het nieuwe online leerprobleem Combinatorial Allocation Bandits (CAB) voor matchplatforms, waarbij het doel is om de tevredenheid van de 'arms' te maximaliseren in plaats van het aantal matches, en presenteert daarvoor effectieve UC- en TS-algoritmen met bijbehorende regret-bounds.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Dit paper introduceert Self-MOA, een volledig geautomatiseerd framework dat kleine taalmodellen via zwakke supervisie en een gesloten feedbacklus effectief veilig en behulpzaam maakt met aanzienlijk minder trainingsdata dan traditionele menselijke methoden.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Deze paper introduceert het TEA-Time-framework voor het extrapoleren van behandelingseffecten naar andere tijdsperiodes door gebruik te maken van twee identificatiestrategieën die een afweging bieden tussen precisie en bias, zoals aangetoond in simulaties en een toepassing op Upworthy A/B-tests.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Dit paper introduceert RESCHED, een minimalistisch deep reinforcement learning-framework dat de Flexible Job Shop Scheduling-problemen oplost door de state-representatie te reduceren tot vier essentiële kenmerken en een aangepaste Transformer-architectuur te gebruiken, wat leidt tot superieure prestaties en betere generalisatie dan bestaande methoden.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Deze paper introduceert een adaptief federatief leerframework dat de beperkingen van heterogene resources en privacy vereisten overbrugt door krachtige clients te laten finetunen en zwakkere clients te betrekken via een lichtgewicht DP-stemmingsmechanisme, waardoor privacy-beschermde synthetische tekstdatasets worden gegenereerd die de globale verdeling nauwkeurig nabootsen voor diverse downstream-taken.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Dit paper introduceert Artoo, een lichtgewicht, end-to-end getraind akoestisch communicatiesysteem voor robots dat handmatige signaalverwerking vervangt door een gezamenlijk geoptimaliseerd TTS- en ASR-netwerk, waardoor robuuste communicatie onder ruis mogelijk is met een zeer lage parametercount en snelle CPU-uitvoering.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

Dit paper introduceert IMD-AD, een interpreteerbare methode voor diepe anomaliedetectie die hypersfeerinstorting voorkomt en end-to-end leerbare parameters biedt door gebruik te maken van een klein aantal gelabelde anomalieën en een maximum margin-doelstelling.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Deze paper introduceert Entropy-Aware On-Policy Distillation, een methode die de standaard reverse KL-divergentie aanvult met forward KL bij hoge teacher-entropie om de generatiediversiteit te behouden en de prestaties van taalmodellen op wiskundige redeneringstaken aanzienlijk te verbeteren.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Het paper introduceert VLN-Cache, een trainingsvrij caching-framework dat de inferentiekosten van Vision-and-Language Navigation-modellen verlaagt door visuele en semantische dynamiek te detecteren en te compenseren, wat resulteert tot een snelheidswinst van 1,52x zonder in te leveren op de navigatiesuccesratio.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Het artikel introduceert Dreamer-CDP, een methode die de kloof tussen Dreamer en reconstructievrije wereldmodellen dicht door een JEPA-achtige voorspeller op continue, deterministische representaties te gebruiken, waardoor prestaties op de Crafter-benchmark gelijk zijn aan die van Dreamer zonder reconstructiedoelstellingen.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Dit paper introduceert Countdown-Code, een testomgeving die aantoont dat reward hacking in taalmodellen al kan ontstaan door minimale verontreiniging in trainingsdata tijdens supervised fine-tuning en vervolgens wordt versterkt en gegeneraliseerd door reinforcement learning.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Dit artikel presenteert een nieuwe, distributie-vrije methode voor robuuste trajectoptimalisatie van niet-Gaussische stochastische systemen, die conformale inferentie en statistische contractie gebruikt om kansenbeperkingen om te zetten in waarborgbare deterministische beperkingen voor veilige bewegingsplanning.

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Dit artikel introduceert diepe spatiotemporale engressiemethoden die betrouwbare probabilistische voorspellingen voor epidemieën genereren door endogene onzekerheidskwantificatie, en toont aan dat deze modellen verschillende benchmarks overtreffen op zes epidemiologische datasets.

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Dit paper introduceert DualAdam, een nieuwe optimizer die het snelle convergentiegedrag van Adam combineert met het inverse updatemechanisme van InvAdam om scherpe minima te vermijden en zo de generalisatieprestaties van diepe neurale netwerken aanzienlijk te verbeteren.

Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

Dit paper introduceert een framework voor agentic planning met redenering voor afbeeldingsstyling, dat composiete bewerkingen deconstrueert in interpreteerbare toolsequenties en via offline RL wordt geoptimaliseerd op synthetische datasets om superieure resultaten te behalen ten opzichte van directe prompt-gebaseerde methoden.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Spectral Conditioning of Attention Improves Transformer Performance

Dit artikel introduceert een eenvoudige, breed toepasbare methode die de spectrale eigenschappen van attention-lagen in transformers optimaliseert om de conditie van de Jacobiaan te verbeteren, wat leidt tot consistente prestatiewinsten op diverse taken.

Hemanth Saratchandran, Simon Lucey2026-03-10🤖 cs.LG

← Vorige Volgende →