I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?

Dit paper introduceert een nieuw generatief model en bewijst dat next-token prediction leidt tot representaties die de logaritmen van de posterieure kansen op latente, mensinterpreteerbare concepten benaderen, wat de lineaire representatiehypothese theoretisch onderbouwt en empirisch wordt gevalideerd op verschillende LLM-families.

Yuhang Liu, Dong Gong, Yichao Cai + 6 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Dit paper introduceert Negative-aware Fine-Tuning (NFT), een geavanceerde supervised learning-methode die LLM's in staat stelt om autonoom te leren van hun eigen fouten in wiskundige redenering, waardoor het de prestaties van bestaande RL-algoritmen evenaart of overtreft en de theoretische kloof tussen supervised learning en reinforcement learning dicht.

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

Learning to Reason without External Rewards

Dit paper introduceert Intuitor, een methode voor Reinforcement Learning from Internal Feedback (RLIF) die grote taalmodellen in staat stelt om zonder externe beloningen of gelabelde data te leren door gebruik te maken van hun eigen zelfvertrouwen als beloningssignaal, wat resulteert in prestaties die vergelijkbaar zijn met traditionele methoden op wiskundige benchmarks en betere generalisatie naar domeinen zoals codegeneratie.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Dit paper introduceert RedTeamCUA, een nieuw testframework met een hybride sandbox voor het realistisch evalueren van kwetsbaarheden voor indirecte prompt-injectie in computergebruiksagenten, en presenteert de RTC-Bench-benchmark die aantoont dat zelfs de meest geavanceerde agenten aanzienlijke veiligheidsrisico's vertonen in hybride web-OS-omgevingen.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

In dit paper wordt OmniSpatial geïntroduceerd, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren bij vision-language modellen, gebaseerd op cognitieve psychologie met meer dan 8.4K handmatig geannoteerde vraag-antwoordparen die vier hoofdcategorieën bestrijken, terwijl experimenten de beperkingen van bestaande modellen aantonen en twee nieuwe strategieën voor verbetering voorstellen.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL