Squish and Release: Exposing Hidden Hallucinations by Making Them Surface as Safety Signals
Il paper introduce "Squish and Release", un'architettura di patching degli attivazioni che dimostra come le allucinazioni di ordine (order-gap) nei modelli linguistici vengano soppresse nel circuito di sicurezza anziché eliminate, permettendo di ripristinare la rilevazione degli errori attraverso la manipolazione di un "nucleo" di attivazione specifico.