IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR
El artículo presenta IntelliAsk, un modelo entrenado mediante optimización por refuerzo con verificación de recompensas (RLVR) y una nueva función de recompensa llamada IntelliReward, que genera preguntas de revisión de investigación de alta calidad, fundamentadas y sustanciales, superando a los modelos de línea base y demostrando mejoras en benchmarks de razonamiento y escritura.