Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt Chart-RL vor, eine Reinforcement-Learning-Methode mit mathematisch überprüfbaren Belohnungen, die Vision-Language-Modelle durch den Einsatz weniger komplexer Trainingsbeispiele signifikant besser in der allgemeinen Diagrammverständnisleistung und im Transfer auf mathematische Probleme macht als herkömmliches Supervised Fine-Tuning.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Dieser Artikel stellt ein SISA-basiertes Machine-Unlearning-Framework vor, das die Lokalisierung von Kurzschlussfehlern in Transformatorwicklungen ermöglicht und durch gezieltes Neutrainieren betroffener Daten-Shards die Auswirkungen vergifteter Trainingsdaten effizient beseitigt, ohne das gesamte Modell neu trainieren zu müssen.

Nanhong Liu, Jingyi Yan, Mucun Sun, Jie Zhang2026-03-10🤖 cs.LG

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Die Arbeit stellt Conditional Unbalanced Optimal Transport Maps (CUOTM) vor, ein ausreißerrobustes Framework für die bedingte generative Modellierung, das durch Lockerung der Verteilungsanpassungsbeschränkungen mittels Csiszár-Divergenz die Empfindlichkeit klassischer Optimal-Transport-Methoden gegenüber Ausreißern überwindet.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Die vorgestellte Arbeit stellt NePPO vor, einen neuen MARL-Ansatz zur Berechnung approximierter Nash-Gleichgewichte in allgemeinen-summen-Spielen, der durch das Erlernen einer spielerspezifischen Potentialfunktion eine stabile Konvergenz in gemischt kooperativ-kompetitiven Umgebungen ermöglicht und dabei bestehende Baselines wie MAPPO übertrifft.

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

Die Arbeit stellt Diffusion Controller (DiffCon) vor, ein einheitliches regelungstheoretisches Framework, das reverse Diffusions-Sampling als stochastische Steuerung in LS-MDPs formuliert und daraus effiziente Reinforcement-Learning-Methoden sowie eine parametrisierte Seiten-Netzwerk-Architektur ableitet, die bei der Feinabstimmung von Diffusionsmodellen zu verbesserten Ergebnissen führt.

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Diese Arbeit stellt eine adaptive Methode vor, die Multimodale Large Language Models (MLLMs) nutzt, um in unter 11 Minuten interpretierbare Audio-Attribute für die Klassifizierung mit geringen Ressourcen effizient zu entdecken und dabei menschliche Experten zu ersetzen, was in den meisten Fällen zu besseren Ergebnissen führt als direkte MLLM-Vorhersagen.

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Die Studie stellt Self-MOA vor, ein vollständig automatisiertes Framework, das kleine Sprachmodelle durch schwache Aufsicht und dynamische rote Team-Generierung sicherer macht, wobei es die Sicherheit um 12,41 % verbessert und gleichzeitig die Hilfsbereitschaft erhält, während es den Bedarf an menschlich annotierten Daten im Vergleich zu herkömmlichen Methoden um das 11-fache reduziert.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Die Arbeit stellt \textsc{ReSched} vor, ein minimalistisches Deep-Reinforcement-Learning-Framework, das den Flexible Job Shop Scheduling Problem durch eine auf vier essenziellen Merkmalen basierende Zustandsdarstellung und eine angepasste Transformer-Architektur löst und dabei sowohl klassische Heuristiken als auch aktuelle neuronale Methoden übertreift.

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

Dieser Artikel stellt einen ressourcenadaptiven Rahmen für das föderierte Textgenerieren mit Differential Privacy vor, der die Zusammenarbeit zwischen leistungsstarken und schwachen Clients durch eine Kombination aus Differential-Privacy-Fine-Tuning und einem leichtgewichtigen DP-Stimmmechanismus ermöglicht, um synthetische Datensätze zu erzeugen, die die globale Verteilung unter Berücksichtigung von Heterogenität und Datenschutz genau widerspiegeln.

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Das Paper stellt Artoo vor, ein ressourcenschonendes, end-to-end trainiertes akustisches Kommunikationssystem für Roboter, das durch den Verzicht auf menschliche Sprachmerkmale und eine gemeinsame Optimierung von Sender und Empfänger eine hohe Robustheit gegenüber Kanalverzerrungen bei minimalem Rechenaufwand erreicht.

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

Die Arbeit stellt eine entropiebewusste on-policy-Distillation vor, die durch die adaptive Kombination von Reverse- und Forward-KL-Divergenz die Diversität der Generierung bei hoher Unsicherheit des Lehrmodells erhält und gleichzeitig die Genauigkeit der Wissensübertragung auf Mathematik-Benchmarks signifikant verbessert.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Die Arbeit stellt VLN-Cache vor, einen rahmenfreien Ansatz zur Token-Caching für Vision-and-Language-Navigation-Modelle, der durch visuelle und semantische Dynamik-Erkennung die Wiederverwendung stabiler Tokens ermöglicht und so die Inferenzkosten um bis zu 1,52-fach senkt, ohne die Navigationserfolgsrate zu beeinträchtigen.

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Der Artikel stellt Dreamer-CDP vor, eine Methode, die durch die Verwendung eines JEPA-ähnlichen Prädiktors auf kontinuierlichen, deterministischen Repräsentationen die Leistung von Dreamer im Crafter-Umfeld ohne rekonstruktionsbasierte Ziele erreicht und so die Lücke zwischen rekonstruktionsbasierten und rekonstruktionsfreien Weltmodellen schließt.

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG