Rift: A Conflict Signature for Deception in Language Models
Questo articolo introduce "Rift", una firma di conflitto interno rilevabile caratterizzata da un elevato rango residuo che distingue gli output ingannevoli dei modelli linguistici dagli errori onesti e dalle allucinazioni con un'accuratezza quasi perfetta, anche attraverso diverse famiglie di modelli, lingue e tentativi di occultamento strategico, pur rimanendo indetectabile all'iniezione.