Rift: A Conflict Signature for Deception in Language Models
Dit artikel introduceert "Rift", een detecteerbare interne conflict-signatuur gekenmerkt door een verhoogde residuele rang die misleidende outputs van taalmodellen onderscheidt van eerlijke fouten en hallucinaties met bijna perfecte nauwkeurigheid, zelfs over verschillende modelfamilies, talen en pogingen tot strategische verhulling, terwijl het ondetecteerbaar blijft voor injectie.