GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models
GuardAlign ist ein trainingsfreies Verteidigungsframework für multimodale Sprachmodelle, das durch den Einsatz von Optimal-Transport zur präzisen Erkennung unsicherer Bildbereiche und einer cross-modalen Aufmerksamkeitskalibrierung zur Stabilisierung von Sicherheitsignalen die Sicherheitsrate signifikant verbessert, ohne die Nützlichkeit der Modelle zu beeinträchtigen.