MedVLThinker: Simple Baselines for Multimodal Medical Reasoning
El artículo presenta MedVLThinker, un conjunto de líneas base de código abierto que demuestra que el aprendizaje por refuerzo con recompensas verificables (RLVR) sobre datos de razonamiento puramente textuales supera significativamente al ajuste fino supervisado y a los datos multimodales, logrando un nuevo estado del arte en benchmarks médicos y rivalizando con modelos propietarios como GPT-4o.