Think Before You Lie: How Reasoning Improves Honesty
Questo studio dimostra che, al contrario degli esseri umani, il processo di ragionamento aumenta la coerenza onesta nei modelli linguistici di grandi dimensioni, poiché lo spazio rappresentativo sottostante rende le risposte ingannevoli metastabili e più suscettibili di destabilizzazione rispetto a quelle oneste.