SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety
Le papier présente SaFeR-ToolKit, une approche qui formalise la prise de décision de sécurité des modèles vision-langage en un protocole vérifiable via l'appel d'outils virtuels et un entraînement en trois étapes, améliorant ainsi significativement la sécurité et le raisonnement tout en préservant les capacités générales.