Rift: A Conflict Signature for Deception in Language Models
Dieses Paper führt „Rift“ ein, eine detektierbare interne Konfliktsignatur, die durch einen erhöhten Residualrang gekennzeichnet ist und täuschende Ausgaben von Sprachmodellen mit nahezu perfekter Genauigkeit von ehrlichen Fehlern und Halluzinationen unterscheidet, selbst über verschiedene Modellfamilien, Sprachen und strategische Verschleierungsversuche hinweg, während sie gegenüber Injectionen unentdeckbar bleibt.