Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
Diese Studie nutzt zensierte chinesische Open-Weight-LLMs als Testumgebung, um Techniken zur Förderung von Ehrlichkeit und zur Erkennung von Lügen zu evaluieren, wobei sich zwar einige Methoden als wirksam erweisen, keine jedoch falsche Antworten vollständig eliminieren kann.