When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains
Este estudio demuestra que el aprendizaje por refuerzo (RL) mejora principalmente la precisión y eficiencia de muestreo de los modelos de visión y lenguaje médicos cuando ya existe una base sólida de razonamiento obtenida mediante ajuste fino supervisado (SFT), proponiendo una estrategia de entrenamiento que combina ambos enfoques para lograr un alto rendimiento en diversos benchmarks médicos.