Order Optimal Regret Bounds for Sharpe Ratio Optimization under Thompson Sampling
Diese Arbeit stellt den Algorithmus \texttt{SRTS} vor, der auf Thompson Sampling basiert und für die sequenzielle Maximierung der Sharpe-Ratio in stochastischen Bandit-Problemen mit gaußschen Belohnungen logarithmische, ordnungsoptimale Regret-Schranken nachweist.