Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
Este estudio utiliza modelos de lenguaje abiertos chinos que censuran temas políticamente sensibles como un banco de pruebas natural para evaluar técnicas de elicitación de honestidad y detección de mentiras, encontrando que métodos como el muestreo sin plantillas de chat y el prompting de autoevaluación mejoran la veracidad, aunque ninguna técnica elimina completamente las respuestas falsas.