A Mutual Information-based Metric for Temporal Expressivity and Trainability Estimation in Quantum Policy Gradient Pipelines
Diese Arbeit schlägt eine mutual-information-basierte Metrik vor, die die zeitliche Expressivität und Trainierbarkeit von Quanten-Policy-Gradient-Pipelines quantifiziert, indem sie die gegenseitige Information zwischen Aktionsverteilung und diskretisiertem Belohnungssignal nutzt, um obere Schranken für die Gradientennorm zu bestimmen und eine einseitige Vorauswahlkriterium für die Initialisierung zu ermöglichen.