Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

Deze studie analyseert 92 open-source taalmodellen en toont aan dat het meenemen van ontwerpfactoren zoals data-samenstelling en architecturale keuzes, naast modelgrootte, de voorspelling van downstream-prestaties aanzienlijk verbetert en inzicht biedt in hoe specifieke ontwerpbeslissingen de eindcapaciteiten vormen.

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Dit paper introduceert een nieuw generatief model en bewijst dat next-token prediction leidt tot representaties die de logaritmen van de posterieure kansen op latente, mensinterpreteerbare concepten benaderen, wat de lineaire representatiehypothese theoretisch onderbouwt en empirisch wordt gevalideerd op verschillende LLM-families.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Dit paper introduceert Negative-aware Fine-Tuning (NFT), een geavanceerde supervised learning-methode die LLM's in staat stelt om autonoom te leren van hun eigen fouten in wiskundige redenering, waardoor het de prestaties van bestaande RL-algoritmen evenaart of overtreft en de theoretische kloof tussen supervised learning en reinforcement learning dicht.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Dit paper introduceert Intuitor, een methode voor Reinforcement Learning from Internal Feedback (RLIF) die grote taalmodellen in staat stelt om zonder externe beloningen of gelabelde data te leren door gebruik te maken van hun eigen zelfvertrouwen als beloningssignaal, wat resulteert in prestaties die vergelijkbaar zijn met traditionele methoden op wiskundige benchmarks en betere generalisatie naar domeinen zoals codegeneratie.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL