Rift: A Conflict Signature for Deception in Language Models
이 논문은 기만적인 언어 모델의 출력물을 정직한 오류나 환각과 거의 완벽한 정확도로 구별해내는 특징인 높은 잔차 랭크(residual rank)를 특징으로 하는 탐지 가능한 내부 갈등 시그니처인 "Rift"를 소개하며, 이는 서로 다른 모델 제품군, 언어, 전략적 은폐 시도 전반에 걸쳐 유효하면서도 인젝션(injection)에는 탐지되지 않은 채로 유지된다.