OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences
Il paper introduce OOD-MMSafe, un benchmark e un framework di ottimizzazione chiamato CASPO, per superare la "cecità causale" dei modelli MLLM spostando l'allineamento alla sicurezza dalla semplice rilevazione delle intenzioni malevole alla previsione delle conseguenze nascoste.