cs.LG Arbeiten | Gist.Science

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Der vorgestellte Sim2Act-Rahmenwerk verbessert das robuste Simulations-zu-Entscheidungs-Lernen für kritische Domänen wie Lieferketten, indem es durch eine adversarische Kalibrierung und eine gruppenrelative Perturbationsstrategie die Zuverlässigkeit von Policies trotz simulierter Unsicherheiten und Datenverzerrungen sicherstellt.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Die Arbeit stellt „Quality over Quantity" (QoQ) vor, eine systematische Methode zur automatischen Kuratierung hochwertiger Roboterdemonstrationsdaten mittels Einflussfunktionen, die nachweislich die Leistung von Lernpolitiken in simulierten und realen Umgebungen verbessert.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin Lee2026-03-11🤖 cs.LG

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Diese Arbeit stellt ein integriertes Online-Framework zur Vorhersage der Zuverlässigkeit von Satellitenelektronik vor, das ein Wiener-Prozess-Degradationsmodell mit räumlichen Korrelationen und eine adaptive zweistufige Active-Learning-Strategie kombiniert, um trotz begrenzter Daten und variierender Betriebsbedingungen eine hohe Vorhersagegenauigkeit zu erreichen.

Shixiang Li, Yubin Tian, Dianpeng Wang, Piao Chen, Mengying Ren2026-03-11🤖 cs.LG

Dynamic Multi-period Experts for Online Time Series Forecasting

Die Arbeit stellt DynaME vor, ein hybrides Framework für das Online-Training von Zeitreihen, das Konzeptdrift in wiederkehrende und emergente Drift unterteilt und durch eine Kombination aus spezialisierten Experten für historische Muster sowie einem stabilen Generalisten für neue Muster eine überlegene Anpassungsfähigkeit erreicht.

Seungha Hong, Sukang Chae, Suyeon Kim, Sanghwan Jang, Hwanjo Yu2026-03-11🤖 cs.LG

Learning Adaptive LLM Decoding

Die vorgestellte Arbeit schlägt leichte, mit Reinforcement Learning trainierte Decoding-Adapter vor, die dynamisch Sampling-Strategien an die jeweilige Aufgabenkomplexität und verfügbare Rechenressourcen anpassen, um die Genauigkeit von Large Language Models bei Mathematik- und Codierungsaufgaben im Vergleich zu statischen Baselines signifikant zu verbessern.

Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai2026-03-11🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Diese Arbeit verifiziert, dass persistente Beobachter in kausal invarianten Hypergraphen die Bedingungen des Good-Regulator-Theorems erfüllen, wodurch sich natürliche Gradientenabstiegsverfahren als einzig zulässige Lernregel ergeben und eine modellabhängige Verbindung zwischen Wolframs und Vanchurins Theorien mit einem quanten-klassischen Schwellenwert bei κ(F)=2 hergestellt wird.

Max Zhuravlev2026-03-11🤖 cs.LG

Exclusive Self Attention

Die Arbeit stellt die „Exclusive Self Attention" (XSA) vor, eine einfache Modifikation des Self-Attention-Mechanismus, die durch den Ausschluss der eigenen Token-Information die Kontextmodellierung verbessert und bei Sprachmodellierungsaufgaben konsistent bessere Ergebnisse als das Standardverfahren erzielt.

Shuangfei Zhai2026-03-11🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Diese Arbeit stellt ein hybrides, auf Proximal Policy Optimization (PPO) und Linearer Programmierung basierendes Optimierungsverfahren für ein semantikbasiertes, RIS-gestütztes Fahrzeug-Edge-Computing-System vor, das die End-to-End-Latenz im Vergleich zu bestehenden Methoden um 40–50 % reduziert.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang Fan2026-03-11🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Diese Studie zeigt, dass die Integration von Sentiment-Daten aus feinabgestimmten LLMs (Qwen3) mit traditionellen tabellarischen Marktdaten die Vorhersagegenauigkeit und den wirtschaftlichen Nutzen für Aluminiumpreise, insbesondere in volatilen Phasen, signifikant verbessert.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Dieser Artikel stellt ein einheitliches Taxonomie- und Evaluierungsrahmenwerk für latente Weltmodelle im automatisierten Fahren vor, das verschiedene Repräsentationsformen und strukturelle Priors systematisch kategorisiert, um Herausforderungen wie Robustheit, Generalisierung und Ressourceneffizienz zu adressieren und zukünftige Forschungsrichtungen für verifizierbare Entscheidungssysteme aufzuzeigen.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Die Arbeit identifiziert und beweist, dass unmaskierte Policy-Gradient-Algorithmen in Umgebungen mit zustandsabhängigen Aktionsvaliditäten durch geteilte Netzwerkgewichte dazu neigen, gültige Aktionen in noch nicht besuchten Zuständen systematisch zu unterdrücken, und zeigt, dass eine Klassifizierung der Machbarkeit diese Suppression effektiv verhindert.

Renos Zabounidis, Roy Siegelmann, Mohamad Qadri, Woojun Kim, Simon Stepputtis, Katia P. Sycara2026-03-11🤖 cs.LG

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Diese Arbeit stellt einen datengesteuerten Ansatz zur probabilistischen Vorhersage des Hysterese-Faktors bei Lithium-Ionen-Batterien mit Silizium-Graphit-Anoden vor, der durch Datenharmonisierung und maschinelles Lernen eine robuste und recheneffiziente Zustand-Schätzung unter Unsicherheiten ermöglicht.

Runyao Yu, Viviana Kleine, Philipp Gromotka, Thomas Rudolf, Adrian Eisenmann, Gautham Ram Chandra Mouli, Peter Palensky, Jochen L. Cremer2026-03-11🤖 cs.LG

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Die Arbeit stellt DCPO vor, ein Framework, das durch die Entkopplung von Optimierungszielen für logisches Schließen und Kalibrierung die Überkonfidenz in RLVR-Modellen beseitigt und gleichzeitig hohe Genauigkeit sowie eine optimale Kalibrierung gewährleistet.

Zhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun2026-03-11🤖 cs.LG

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Diese Arbeit stellt eine Regularisierungsmethode auf Basis der Wahrscheinlichkeit von Notwendigkeit und Hinreichendheit (PNS) für das klasseninkrementelle Lernen vor, die durch die Generierung von kontrafaktischen Merkmalen innerhalb und zwischen Aufgaben kausale Vollständigkeit und Trennschärfe sicherstellt, um Kollisionen von Merkmalen und katastrophales Vergessen zu verhindern.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Das Paper stellt RubiCap vor, ein neuartiges Reinforcement-Learning-Framework, das mithilfe von LLM-generierten Rubriken feingranulare Belohnungssignale für das Dichte-Bildbeschreiben erzeugt und damit sowohl die Vielfalt der Ergebnisse als auch die Leistung von Vision-Language-Modellen im Vergleich zu bestehenden Methoden und menschlichen Annotationen signifikant verbessert.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Diese Arbeit schlägt ein kosteneffizientes Framework vor, das funktional fehlerhafte, aber strukturell aussagekräftige von LLMs generierte RTL-Codes nutzt, um Netlist-Repräsentationen zu lernen und so die Datenknappheit für das Training von KI-Modellen in der Schaltungsanalyse zu überwinden.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Die Arbeit stellt GIAT vor, einen neuartigen Geologisch-Informierten Attention Transformer, der durch die Integration von geologischen Priors in den Aufmerksamkeitsmechanismus die Genauigkeit und Interpretierbarkeit der Lithologie-Identifikation aus Bohrlochdaten signifikant verbessert.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

Better Bounds for the Distributed Experts Problem

Dieses Paper stellt ein Kommunikationsprotokoll für das verteilte Expertenproblem vor, das im Vergleich zu früheren Arbeiten eine verbesserte Regret-Schranke bei minimalem Kommunikationsaufwand erreicht.

David P. Woodruff, Samson Zhou2026-03-11🤖 cs.LG

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Diese Arbeit stellt ein physik-informiertes generatives Modell vor, das stochastische Verkehrsflüsse durch eine auf der Itô-LWR-Gleichung basierende Verteilungsdynamik und ein score-basiertes Netzwerk abbildet, um datenbasierte Schätzungen von Verkehrsdichteverteilungen einschließlich Unsicherheitsintervallen zu ermöglichen.

Wuping Xin2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Die Arbeit stellt Latent-DARM vor, ein latenter Kommunikationsrahmen, der diskrete Diffusionsmodelle als Planer und autoregressive Modelle als Ausführer verbindet, um die reasoning-Fähigkeiten in Multi-Agenten-Systemen signifikant zu verbessern und dabei den Token-Verbrauch drastisch zu senken.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

← Zurück Weiter →