Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Diese Arbeit entwickelt einen axiomatischen Ansatz für datengetriebene, robuste Markov-Entscheidungsprozesse auf Borel-Räumen, der mittels empirischer Verteilungen und Ambiguitätsmengen, die auf Distanzfunktionen basieren, Konvergenzgarantien, Stichprobenkomplexitätsgrenzen und Wahrscheinlichkeitsaussagen für die Out-of-Sample-Leistung liefert, während sie gleichzeitig die mangelnde Robustheit rein empirischer MDPs aufzeigt.

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Diese Arbeit verifiziert, dass persistente Beobachter in kausal invarianten Hypergraphen die Bedingungen des Good-Regulator-Theorems erfüllen, wodurch sich natürliche Gradientenabstiegsverfahren als einzig zulässige Lernregel ergeben und eine modellabhängige Verbindung zwischen Wolframs und Vanchurins Theorien mit einem quanten-klassischen Schwellenwert bei κ(F)=2 hergestellt wird.

Max ZhuravlevWed, 11 Ma🤖 cs.LG

Transductive Generalization via Optimal Transport and Its Application to Graph Node Classification

Diese Arbeit stellt neue, effizient berechenbare transduktive Generalisierungsgrenzen für Graph-Node-Klassifizierung vor, die auf Optimal-Transport-Maßen basieren und durch die Analyse von GNN-Aggregationen sowohl die empirische Generalisierung als auch den nicht-monotonen Einfluss der Netzwerktiefe auf den Fehler erklären.

MoonJeong Park, Seungbeom Lee, Kyungmin Kim, Jaeseung Heo, Seunghyuk Cho, Shouheng Li, Sangdon Park, Dongwoo KimWed, 11 Ma🤖 cs.LG

Robust Regularized Policy Iteration under Transition Uncertainty

Die Arbeit stellt Robust Regularized Policy Iteration (RRPI) vor, einen neuen Algorithmus für Offline-Reinforcement-Learning, der durch die Formulierung als robuste Optimierung unter Transitionsunsicherheit und die Nutzung eines KL-regulierten Surrogats eine effiziente und theoretisch fundierte Lösung bietet, die auf D4RL-Benchmarks überlegene Leistung und verbesserte Robustheit gegenüber Ausreißern zeigt.

Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu ZhangWed, 11 Ma🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Die Arbeit führt BRACE ein, einen parameterfreien Algorithmus für Banditen mit Nichtkonformität, der durch eine klare Unterscheidung zwischen Empfehlungswohlfahrt und Behandlungseffekten sowie durch zertifizierte Intervalle sowohl die optimale Empfehlungsstrategie als auch die strukturell optimale Behandlungsstrategie unter Unsicherheit und schwacher Identifikation zuverlässig ermittelt.

Nicolás Della PennaWed, 11 Ma🤖 cs.LG

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Dieses Papier stellt ein einheitliches Framework für traditionelle und konvexe nicht-negative Matrixfaktorisierung (NMF) unter Verwendung von Tweedie- und Negativ-Binomial-Kostenfunktionen vor, leitet Multiplikations-Update-Regeln mittels Majorize-Minimisation ab und zeigt durch empirische Evaluierungen, dass die Wahl des Rauschmodells sowie der Einsatz konvexer NMF die Anpassungsgüte und Merkmalswiederherstellung signifikant verbessern.

Elisabeth Sommer James, Asger Hobolth, Marta PelizzolaWed, 11 Ma🤖 cs.LG

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Diese Arbeit stellt ein neuartiges hierarchisches Multi-Task-Multi-Fidelity-Framework für Gaußsche Prozesse vor, das durch die gleichzeitige Nutzung von Ähnlichkeiten zwischen Aufgaben und fidelityabhängigen Datenmerkmalen die Vorhersagegenauigkeit bei der Surrogatmodellierung in Fertigungssystemen signifikant verbessert.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui ShaoWed, 11 Ma🤖 cs.LG