Dissociating Direct Access from Inference in AI Introspection
Lo studio dimostra che i modelli di intelligenza artificiale rilevano le rappresentazioni iniettate attraverso due meccanismi distinti: un'inferenza basata sull'anomalia del prompt e un accesso diretto agli stati interni che, sebbene rilevi l'anomalia in modo agnostico rispetto al contenuto, non permette di identificare con precisione il significato semantico senza un significativo aumento dei token.