CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal
El artículo presenta CARE, un marco de post-entrenamiento centrado en el fracaso para el razonamiento multimodal que transforma errores en señales de supervisión mediante un objetivo de contraste anclado y una re-muestreo guiado por reflexión, logrando mejoras significativas en precisión y suavidad de entrenamiento en comparación con métodos existentes como GRPO.