Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models
Deze paper introduceert een nieuwe reinforcement learning-methode die grote taalmodellen direct fine-tuned om hun antwoorden op feitelijke vragen te koppelen aan nauwkeurig gekalibreerde betrouwbaarheidsinschattingen, waardoor zowel over- als ondervertrouwen wordt gestraft en de modellen een algemeen bewustzijn van hun eigen zekerheid ontwikkelen.