SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning
El artículo presenta SarcasmMiner, un marco de entrenamiento posterior basado en aprendizaje por refuerzo que utiliza una estrategia de destilación dual y optimización de políticas para mejorar significativamente la detección de sarcasmo multimodal al reformularla como un proceso de razonamiento estructurado.