Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
Este artigo avalia técnicas de elicitação de honestidade e detecção de mentiras em modelos de linguagem abertos chineses que censuram tópicos politicamente sensíveis, descobrindo que métodos como amostragem sem template de chat e prompts de few-shot aumentam respostas verdadeiras, embora nenhuma técnica elimine completamente as falsidades.