cs.LG Arbeiten | Gist.Science

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Das Paper stellt EPIC vor, ein verteiltes wissenschaftliches Lernframework, das durch hardware- und physikgesteuerte Kodierung und Dekodierung die Kommunikationskosten und Latenz bei der Full-Waveform-Inversion drastisch senkt, ohne dabei die physikalische Genauigkeit zu beeinträchtigen.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei Yang2026-03-11🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Das Paper stellt SCALAR vor, ein bidirektionales Framework, das die symbolische Planung von LLMs mit Deep RL kombiniert, um durch iteratives Feedback und Trajektorienanalyse robuste Skills zu lernen und so die Leistung bei komplexen Aufgaben wie dem Sammeln von Diamanten in Craftax signifikant zu verbessern.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Das Paper stellt FlexServe vor, ein schnelles und sicheres System für die Inferenz von Large Language Models auf mobilen Geräten, das durch flexible Ressourcenisolierung und spezialisierte Managementmechanismen innerhalb von ARM TrustZone die erheblichen Leistungsnachteile herkömmlicher Ansätze überwindet.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Der vorgestellte Sim2Act-Rahmenwerk verbessert das robuste Simulations-zu-Entscheidungs-Lernen für kritische Domänen wie Lieferketten, indem es durch eine adversarische Kalibrierung und eine gruppenrelative Perturbationsstrategie die Zuverlässigkeit von Policies trotz simulierter Unsicherheiten und Datenverzerrungen sicherstellt.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Die Arbeit stellt „Quality over Quantity" (QoQ) vor, eine systematische Methode zur automatischen Kuratierung hochwertiger Roboterdemonstrationsdaten mittels Einflussfunktionen, die nachweislich die Leistung von Lernpolitiken in simulierten und realen Umgebungen verbessert.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Diese Arbeit stellt ein integriertes Online-Framework zur Vorhersage der Zuverlässigkeit von Satellitenelektronik vor, das ein Wiener-Prozess-Degradationsmodell mit räumlichen Korrelationen und eine adaptive zweistufige Active-Learning-Strategie kombiniert, um trotz begrenzter Daten und variierender Betriebsbedingungen eine hohe Vorhersagegenauigkeit zu erreichen.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

Die Arbeit stellt DynaME vor, ein hybrides Framework für das Online-Training von Zeitreihen, das Konzeptdrift in wiederkehrende und emergente Drift unterteilt und durch eine Kombination aus spezialisierten Experten für historische Muster sowie einem stabilen Generalisten für neue Muster eine überlegene Anpassungsfähigkeit erreicht.

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo Yu2026-03-11🤖 cs.LG

Learning Adaptive LLM Decoding

Die vorgestellte Arbeit schlägt leichte, mit Reinforcement Learning trainierte Decoding-Adapter vor, die dynamisch Sampling-Strategien an die jeweilige Aufgabenkomplexität und verfügbare Rechenressourcen anpassen, um die Genauigkeit von Large Language Models bei Mathematik- und Codierungsaufgaben im Vergleich zu statischen Baselines signifikant zu verbessern.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Diese Arbeit verifiziert, dass persistente Beobachter in kausal invarianten Hypergraphen die Bedingungen des Good-Regulator-Theorems erfüllen, wodurch sich natürliche Gradientenabstiegsverfahren als einzig zulässige Lernregel ergeben und eine modellabhängige Verbindung zwischen Wolframs und Vanchurins Theorien mit einem quanten-klassischen Schwellenwert bei κ(F)=2 hergestellt wird.

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

Die Arbeit stellt die „Exclusive Self Attention" (XSA) vor, eine einfache Modifikation des Self-Attention-Mechanismus, die durch den Ausschluss der eigenen Token-Information die Kontextmodellierung verbessert und bei Sprachmodellierungsaufgaben konsistent bessere Ergebnisse als das Standardverfahren erzielt.

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Diese Arbeit stellt ein hybrides, auf Proximal Policy Optimization (PPO) und Linearer Programmierung basierendes Optimierungsverfahren für ein semantikbasiertes, RIS-gestütztes Fahrzeug-Edge-Computing-System vor, das die End-to-End-Latenz im Vergleich zu bestehenden Methoden um 40–50 % reduziert.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Diese Studie zeigt, dass die Integration von Sentiment-Daten aus feinabgestimmten LLMs (Qwen3) mit traditionellen tabellarischen Marktdaten die Vorhersagegenauigkeit und den wirtschaftlichen Nutzen für Aluminiumpreise, insbesondere in volatilen Phasen, signifikant verbessert.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Dieser Artikel stellt ein einheitliches Taxonomie- und Evaluierungsrahmenwerk für latente Weltmodelle im automatisierten Fahren vor, das verschiedene Repräsentationsformen und strukturelle Priors systematisch kategorisiert, um Herausforderungen wie Robustheit, Generalisierung und Ressourceneffizienz zu adressieren und zukünftige Forschungsrichtungen für verifizierbare Entscheidungssysteme aufzuzeigen.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Die Arbeit identifiziert und beweist, dass unmaskierte Policy-Gradient-Algorithmen in Umgebungen mit zustandsabhängigen Aktionsvaliditäten durch geteilte Netzwerkgewichte dazu neigen, gültige Aktionen in noch nicht besuchten Zuständen systematisch zu unterdrücken, und zeigt, dass eine Klassifizierung der Machbarkeit diese Suppression effektiv verhindert.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Diese Arbeit stellt einen datengesteuerten Ansatz zur probabilistischen Vorhersage des Hysterese-Faktors bei Lithium-Ionen-Batterien mit Silizium-Graphit-Anoden vor, der durch Datenharmonisierung und maschinelles Lernen eine robuste und recheneffiziente Zustand-Schätzung unter Unsicherheiten ermöglicht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Die Arbeit stellt DCPO vor, ein Framework, das durch die Entkopplung von Optimierungszielen für logisches Schließen und Kalibrierung die Überkonfidenz in RLVR-Modellen beseitigt und gleichzeitig hohe Genauigkeit sowie eine optimale Kalibrierung gewährleistet.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

← Zurück Weiter →