SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning
Il paper presenta SarcasmMiner, un framework di post-addestramento basato su apprendimento per rinforzo che utilizza una strategia di distillazione a doppio binario e ottimizzazione GRPO per migliorare il ragionamento robusto sulla sarcasmia audio-visiva, ottenendo un F1 del 70,22% sul dataset MUStARD++.