CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling
El artículo presenta CDRRM, un marco de modelado de recompensas que genera rúbricas interpretables mediante un paradigma de contraste y síntesis para superar los sesgos y la dependencia de anotaciones costosas, logrando un rendimiento superior con alta eficiencia de datos.