SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Das Paper stellt SCALAR vor, ein bidirektionales Framework, das die symbolische Planung von LLMs mit Deep RL kombiniert, um durch iteratives Feedback und Trajektorienanalyse robuste Skills zu lernen und so die Leistung bei komplexen Aufgaben wie dem Sammeln von Diamanten in Craftax signifikant zu verbessern.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Das Paper stellt FlexServe vor, ein schnelles und sicheres System für die Inferenz von Large Language Models auf mobilen Geräten, das durch flexible Ressourcenisolierung und spezialisierte Managementmechanismen innerhalb von ARM TrustZone die erheblichen Leistungsnachteile herkömmlicher Ansätze überwindet.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Der vorgestellte Sim2Act-Rahmenwerk verbessert das robuste Simulations-zu-Entscheidungs-Lernen für kritische Domänen wie Lieferketten, indem es durch eine adversarische Kalibrierung und eine gruppenrelative Perturbationsstrategie die Zuverlässigkeit von Policies trotz simulierter Unsicherheiten und Datenverzerrungen sicherstellt.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Diese Arbeit stellt ein integriertes Online-Framework zur Vorhersage der Zuverlässigkeit von Satellitenelektronik vor, das ein Wiener-Prozess-Degradationsmodell mit räumlichen Korrelationen und eine adaptive zweistufige Active-Learning-Strategie kombiniert, um trotz begrenzter Daten und variierender Betriebsbedingungen eine hohe Vorhersagegenauigkeit zu erreichen.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Diese Arbeit verifiziert, dass persistente Beobachter in kausal invarianten Hypergraphen die Bedingungen des Good-Regulator-Theorems erfüllen, wodurch sich natürliche Gradientenabstiegsverfahren als einzig zulässige Lernregel ergeben und eine modellabhängige Verbindung zwischen Wolframs und Vanchurins Theorien mit einem quanten-klassischen Schwellenwert bei κ(F)=2 hergestellt wird.

Max Zhuravlev2026-03-11🤖 cs.LG

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Dieser Artikel stellt ein einheitliches Taxonomie- und Evaluierungsrahmenwerk für latente Weltmodelle im automatisierten Fahren vor, das verschiedene Repräsentationsformen und strukturelle Priors systematisch kategorisiert, um Herausforderungen wie Robustheit, Generalisierung und Ressourceneffizienz zu adressieren und zukünftige Forschungsrichtungen für verifizierbare Entscheidungssysteme aufzuzeigen.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Die Arbeit identifiziert und beweist, dass unmaskierte Policy-Gradient-Algorithmen in Umgebungen mit zustandsabhängigen Aktionsvaliditäten durch geteilte Netzwerkgewichte dazu neigen, gültige Aktionen in noch nicht besuchten Zuständen systematisch zu unterdrücken, und zeigt, dass eine Klassifizierung der Machbarkeit diese Suppression effektiv verhindert.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Diese Arbeit stellt einen datengesteuerten Ansatz zur probabilistischen Vorhersage des Hysterese-Faktors bei Lithium-Ionen-Batterien mit Silizium-Graphit-Anoden vor, der durch Datenharmonisierung und maschinelles Lernen eine robuste und recheneffiziente Zustand-Schätzung unter Unsicherheiten ermöglicht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI