Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Deze paper introduceert een nieuwe reinforcement learning-methode die grote taalmodellen direct fine-tuned om hun antwoorden op feitelijke vragen te koppelen aan nauwkeurig gekalibreerde betrouwbaarheidsinschattingen, waardoor zowel over- als ondervertrouwen wordt gestraft en de modellen een algemeen bewustzijn van hun eigen zekerheid ontwikkelen.

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Deze studie analyseert 92 open-source taalmodellen en toont aan dat het meenemen van ontwerpfactoren zoals data-samenstelling en architecturale keuzes, naast modelgrootte, de voorspelling van downstream-prestaties aanzienlijk verbetert en inzicht biedt in hoe specifieke ontwerpbeslissingen de eindcapaciteiten vormen.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Dit paper introduceert een nieuw generatief model en bewijst dat next-token prediction leidt tot representaties die de logaritmen van de posterieure kansen op latente, mensinterpreteerbare concepten benaderen, wat de lineaire representatiehypothese theoretisch onderbouwt en empirisch wordt gevalideerd op verschillende LLM-families.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Dit paper introduceert Negative-aware Fine-Tuning (NFT), een geavanceerde supervised learning-methode die LLM's in staat stelt om autonoom te leren van hun eigen fouten in wiskundige redenering, waardoor het de prestaties van bestaande RL-algoritmen evenaart of overtreft en de theoretische kloof tussen supervised learning en reinforcement learning dicht.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL