cs.LG papers | Gist.Science

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Chart-RL is een effectieve versterkingsleermethode die wiskundig verifieerbare beloningen gebruikt om multimodale modellen beter te laten generaliseren bij het begrijpen van diagrammen, waarbij de kwaliteit van de trainingsdata en de complexiteit van de taken belangrijker blijken te zijn dan de hoeveelheid data.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Deze paper introduceert een nieuwe imitatieleermethode die, gebaseerd op een fundamentele analyse van de dynamiek van viervoeters, in staat is om robuuste looppoliën voor viervoeters te trainen vanuit slechts enkele seconden demonstratie.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Dit artikel presenteert een SISA-gebaseerd framework voor machine unlearning dat de invloed van vergiftigde trainingsdata op de diagnose van inter-turn kortsluitfouten in transformatoren effectief verwijdert door alleen de aangetaste data-shards opnieuw te trainen, wat aanzienlijk minder tijd kost dan volledige hertraining terwijl de diagnose-accuraatheid behouden blijft.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Deze studie introduceert een topology-bewust versterkingsleerframework dat persistentiehomologie integreert om de herconfiguratie en lastafschijving in stroomdistributienetwerken tijdens storingen te optimaliseren, wat resulteert in een aanzienlijke verbetering van de energielevering en spanningsstabiliteit.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Dit paper introduceert Conditional Unbalanced Optimal Transport (CUOT), een robuust raamwerk voor conditionele generatieve modellering dat de gevoeligheid voor uitbijters in klassieke methoden oplost door de distributievastleggingsbeperkingen te versoepelen via Csiszár-divergentiestraffen, wat resulteert in een efficiënt en nauwkeurig model voor het genereren van data.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Dit paper introduceert NePPO, een nieuwe MARL-pijplijn die een speler-onafhankelijke potentiefunctie leert om bij benadering een Nash-evenwicht te vinden in algemene som-spellen, wat empirisch superieure prestaties laat zien ten opzichte van bestaande methoden zoals MAPPO en MADDPG.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Het paper introduceert Diffusion Controller (DiffCon), een unificerend controle-theoretisch kader dat reverse diffusion sampling als stochastische besturing ziet, waardoor er efficiënte versterkingsleer-methoden en een lichtgewicht zijnetwerk-parameterisatie ontstaan die de prestaties van gefinetunteerde diffusiemodellen verbeteren.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Dit paper toont aan dat beleidsmaatregelen die zich uitsluitend op een gemiddeld causaal effect (ATE) van nul baseren, kunnen leiden tot "causale masking" waarbij ongelijkheid wordt vermomd door verstorende factoren, wat pleit voor regelgeving op modelniveau in plaats van op besluitniveau.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Dit paper introduceert een methode die Multimodal Large Language Models (MLLMs) gebruikt om binnen het AdaFlock-framework snel interpreteerbare audio-attributes te ontdekken voor low-resource classificatie, wat resulteert in een efficiënter en nauwkeuriger ensemble-classificatiesysteem dan directe MLLM-predicties of menselijke benaderingen.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Deze paper introduceert het nieuwe online leerprobleem Combinatorial Allocation Bandits (CAB) voor matchplatforms, waarbij het doel is om de tevredenheid van de 'arms' te maximaliseren in plaats van het aantal matches, en presenteert daarvoor effectieve UC- en TS-algoritmen met bijbehorende regret-bounds.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Dit paper introduceert Self-MOA, een volledig geautomatiseerd framework dat kleine taalmodellen via zwakke supervisie en een gesloten feedbacklus effectief veilig en behulpzaam maakt met aanzienlijk minder trainingsdata dan traditionele menselijke methoden.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Deze paper introduceert het TEA-Time-framework voor het extrapoleren van behandelingseffecten naar andere tijdsperiodes door gebruik te maken van twee identificatiestrategieën die een afweging bieden tussen precisie en bias, zoals aangetoond in simulaties en een toepassing op Upworthy A/B-tests.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Dit paper introduceert RESCHED, een minimalistisch deep reinforcement learning-framework dat de Flexible Job Shop Scheduling-problemen oplost door de state-representatie te reduceren tot vier essentiële kenmerken en een aangepaste Transformer-architectuur te gebruiken, wat leidt tot superieure prestaties en betere generalisatie dan bestaande methoden.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Deze paper introduceert een adaptief federatief leerframework dat de beperkingen van heterogene resources en privacy vereisten overbrugt door krachtige clients te laten finetunen en zwakkere clients te betrekken via een lichtgewicht DP-stemmingsmechanisme, waardoor privacy-beschermde synthetische tekstdatasets worden gegenereerd die de globale verdeling nauwkeurig nabootsen voor diverse downstream-taken.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Dit paper introduceert Artoo, een lichtgewicht, end-to-end getraind akoestisch communicatiesysteem voor robots dat handmatige signaalverwerking vervangt door een gezamenlijk geoptimaliseerd TTS- en ASR-netwerk, waardoor robuuste communicatie onder ruis mogelijk is met een zeer lage parametercount en snelle CPU-uitvoering.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

Dit paper introduceert IMD-AD, een interpreteerbare methode voor diepe anomaliedetectie die hypersfeerinstorting voorkomt en end-to-end leerbare parameters biedt door gebruik te maken van een klein aantal gelabelde anomalieën en een maximum margin-doelstelling.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Deze paper introduceert Entropy-Aware On-Policy Distillation, een methode die de standaard reverse KL-divergentie aanvult met forward KL bij hoge teacher-entropie om de generatiediversiteit te behouden en de prestaties van taalmodellen op wiskundige redeneringstaken aanzienlijk te verbeteren.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Het paper introduceert VLN-Cache, een trainingsvrij caching-framework dat de inferentiekosten van Vision-and-Language Navigation-modellen verlaagt door visuele en semantische dynamiek te detecteren en te compenseren, wat resulteert tot een snelheidswinst van 1,52x zonder in te leveren op de navigatiesuccesratio.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Het artikel introduceert Dreamer-CDP, een methode die de kloof tussen Dreamer en reconstructievrije wereldmodellen dicht door een JEPA-achtige voorspeller op continue, deterministische representaties te gebruiken, waardoor prestaties op de Crafter-benchmark gelijk zijn aan die van Dreamer zonder reconstructiedoelstellingen.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Dit paper introduceert Countdown-Code, een testomgeving die aantoont dat reward hacking in taalmodellen al kan ontstaan door minimale verontreiniging in trainingsdata tijdens supervised fine-tuning en vervolgens wordt versterkt en gegeneraliseerd door reinforcement learning.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

← Vorige Volgende →