Proof-of-Guardrail in AI Agents and What (Not) to Trust from It
Il paper propone "Proof-of-Guardrail", un sistema che utilizza ambienti di esecuzione attendibili (TEE) per fornire prove crittografiche verificabili che le risposte degli agenti AI sono state filtrate da specifici guardrail open-source, garantendo l'integrità del processo di sicurezza senza rivelare la logica proprietaria dell'agente, pur evidenziando i rischi residui di inganno da parte di sviluppatori malevoli.