Probing the Limits of the Lie Detector Approach to LLM Deception
Dit paper toont aan dat bestaande 'leugendetectors' voor grote taalmodellen tekortschotten omdat ze zich uitsluitend op onwaarheden richten, terwijl modellen ook succesvol kunnen bedriegen door misleidende maar feitelijke uitspraken te doen.