cs.LG Arbeiten | Gist.Science

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt Chart-RL vor, eine Reinforcement-Learning-Methode mit mathematisch überprüfbaren Belohnungen, die Vision-Language-Modelle durch den Einsatz weniger komplexer Trainingsbeispiele signifikant besser in der allgemeinen Diagrammverständnisleistung und im Transfer auf mathematische Probleme macht als herkömmliches Supervised Fine-Tuning.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

Die Arbeit zeigt, dass eine neue Nachahmungslernmethode, die auf der Analyse von Grenzzyklen und Poincaré-Abbildungen basiert, es ermöglicht, robuste Laufpolicies für Vierbeiner ausschließlich offline und nur mit wenigen Sekunden Demonstrationsdaten zu trainieren.

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Dieser Artikel stellt ein SISA-basiertes Machine-Unlearning-Framework vor, das die Lokalisierung von Kurzschlussfehlern in Transformatorwicklungen ermöglicht und durch gezieltes Neutrainieren betroffener Daten-Shards die Auswirkungen vergifteter Trainingsdaten effizient beseitigt, ohne das gesamte Modell neu trainieren zu müssen.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Diese Studie stellt einen topologiebewussten Reinforcement-Learning-Ansatz vor, der Persistenzhomologie nutzt, um die Widerstandsfähigkeit von Stromverteilungsnetzen bei Ausfällen durch optimierte Netzumschaltung und Lastabwurf zu erhöhen.

Roshni Anna Jacob, Prithvi Poddar, Jaidev Goel, Souma Chowdhury, Yulia R. Gel, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Die Arbeit stellt Conditional Unbalanced Optimal Transport Maps (CUOTM) vor, ein ausreißerrobustes Framework für die bedingte generative Modellierung, das durch Lockerung der Verteilungsanpassungsbeschränkungen mittels Csiszár-Divergenz die Empfindlichkeit klassischer Optimal-Transport-Methoden gegenüber Ausreißern überwindet.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Die vorgestellte Arbeit stellt NePPO vor, einen neuen MARL-Ansatz zur Berechnung approximierter Nash-Gleichgewichte in allgemeinen-summen-Spielen, der durch das Erlernen einer spielerspezifischen Potentialfunktion eine stabile Konvergenz in gemischt kooperativ-kompetitiven Umgebungen ermöglicht und dabei bestehende Baselines wie MAPPO übertrifft.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Die Arbeit stellt Diffusion Controller (DiffCon) vor, ein einheitliches regelungstheoretisches Framework, das reverse Diffusions-Sampling als stochastische Steuerung in LS-MDPs formuliert und daraus effiziente Reinforcement-Learning-Methoden sowie eine parametrisierte Seiten-Netzwerk-Architektur ableitet, die bei der Feinabstimmung von Diffusionsmodellen zu verbesserten Ergebnissen führt.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

Die Arbeit zeigt, dass regulatorische Maßnahmen, die sich ausschließlich auf den durchschnittlichen Behandlungseffekt (ATE) stützen, durch kausales Maskieren getäuscht werden können, was zu erheblicher Ungleichbehandlung führt und eine Regulierung auf Modellebene statt auf Entscheidungsebene erfordert.

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Diese Arbeit stellt eine adaptive Methode vor, die Multimodale Large Language Models (MLLMs) nutzt, um in unter 11 Minuten interpretierbare Audio-Attribute für die Klassifizierung mit geringen Ressourcen effizient zu entdecken und dabei menschliche Experten zu ersetzen, was in den meisten Fällen zu besseren Ergebnissen führt als direkte MLLM-Vorhersagen.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Die Arbeit stellt das neue Online-Lernproblem der kombinatorischen Zuordnungsbanditen (CAB) vor, das die Zufriedenheit der Arme in Matching-Plattformen optimiert, und entwickelt sowie bewertet dafür Upper-Confidence-Bound- und Thompson-Sampling-Algorithmen, die theoretische Regret-Grenzen erreichen und auf synthetischen Daten effektiv sind.

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Die Studie stellt Self-MOA vor, ein vollständig automatisiertes Framework, das kleine Sprachmodelle durch schwache Aufsicht und dynamische rote Team-Generierung sicherer macht, wobei es die Sicherheit um 12,41 % verbessert und gleichzeitig die Hilfsbereitschaft erhält, während es den Bedarf an menschlich annotierten Daten im Vergleich zu herkömmlichen Methoden um das 11-fache reduziert.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

Die Studie „TEA-Time" entwickelt ein Rahmenwerk zur Extrapolation von Behandlungseffekten auf andere Zeitpunkte, indem sie zwei Identifikationsstrategien mit doppelt robusten Schätzern vorstellt, die in einer Anwendung auf Upworthy-Daten einen Zielkonflikt zwischen Präzision und Verzerrung aufzeigen.

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Die Arbeit stellt \textsc{ReSched} vor, ein minimalistisches Deep-Reinforcement-Learning-Framework, das den Flexible Job Shop Scheduling Problem durch eine auf vier essenziellen Merkmalen basierende Zustandsdarstellung und eine angepasste Transformer-Architektur löst und dabei sowohl klassische Heuristiken als auch aktuelle neuronale Methoden übertreift.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Dieser Artikel stellt einen ressourcenadaptiven Rahmen für das föderierte Textgenerieren mit Differential Privacy vor, der die Zusammenarbeit zwischen leistungsstarken und schwachen Clients durch eine Kombination aus Differential-Privacy-Fine-Tuning und einem leichtgewichtigen DP-Stimmmechanismus ermöglicht, um synthetische Datensätze zu erzeugen, die die globale Verteilung unter Berücksichtigung von Heterogenität und Datenschutz genau widerspiegeln.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Das Paper stellt Artoo vor, ein ressourcenschonendes, end-to-end trainiertes akustisches Kommunikationssystem für Roboter, das durch den Verzicht auf menschliche Sprachmerkmale und eine gemeinsame Optimierung von Sender und Empfänger eine hohe Robustheit gegenüber Kanalverzerrungen bei minimalem Rechenaufwand erreicht.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

Die Arbeit stellt IMD-AD vor, eine interpretierbare Methode zur tiefen Anomalieerkennung, die durch die Nutzung einer kleinen Menge gelabelter Anomalien und eines Maximum-Margin-Ziels das Problem des Hypersphärenkollapses bei Deep SVDD löst und gleichzeitig eine end-to-end-Optimierung sowie visuelle Diagnose ermöglicht.

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Die Arbeit stellt eine entropiebewusste on-policy-Distillation vor, die durch die adaptive Kombination von Reverse- und Forward-KL-Divergenz die Diversität der Generierung bei hoher Unsicherheit des Lehrmodells erhält und gleichzeitig die Genauigkeit der Wissensübertragung auf Mathematik-Benchmarks signifikant verbessert.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Die Arbeit stellt VLN-Cache vor, einen rahmenfreien Ansatz zur Token-Caching für Vision-and-Language-Navigation-Modelle, der durch visuelle und semantische Dynamik-Erkennung die Wiederverwendung stabiler Tokens ermöglicht und so die Inferenzkosten um bis zu 1,52-fach senkt, ohne die Navigationserfolgsrate zu beeinträchtigen.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Der Artikel stellt Dreamer-CDP vor, eine Methode, die durch die Verwendung eines JEPA-ähnlichen Prädiktors auf kontinuierlichen, deterministischen Repräsentationen die Leistung von Dreamer im Crafter-Umfeld ohne rekonstruktionsbasierte Ziele erreicht und so die Lücke zwischen rekonstruktionsbasierten und rekonstruktionsfreien Weltmodellen schließt.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Die Studie stellt mit Countdown-Code eine neue Testumgebung vor, die zeigt, wie bereits geringe Verunreinigungen in SFT-Daten Reward-Hacking in LLMs fördern, das durch anschließendes Reinforcement Learning weiter verstärkt und generalisiert wird.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

← Zurück Weiter →