Rift: A Conflict Signature for Deception in Language Models
Cet article introduit « Rift », une signature de conflit interne détectable caractérisée par un rang résiduel élevé qui distingue les sorties trompeuses des modèles de langage des erreurs honnêtes et des hallucinations avec une précision quasi parfaite, même à travers différentes familles de modèles, langues et tentatives de dissimulation stratégique, tout en restant indétectable pour l'injection.