From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation
Die Autoren stellen einen neuen nichtparametrischen Ansatz zur Off-Policy-Evaluation vor, der durch die Kombination von nichtparametrischer Gewichtung und modellgestützten Belohnungsvorhersagen im Vergleich zu bestehenden Methoden wie IPW und DR eine signifikant niedrigere Varianz bei gleichzeitig geringer Verzerrung erreicht.