Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use
Il paper presenta MOSAIC, un framework di post-addestramento che allinea i modelli linguistici agenti per un uso sicuro degli strumenti multi-step, strutturando l'inferenza in un ciclo di pianificazione, verifica e azione o rifiuto, e utilizzando l'apprendimento per rinforzo basato su preferenze per ridurre significativamente i comportamenti dannosi e le fughe di dati senza compromettere le prestazioni nei compiti benigni.