ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Dit paper introduceert CoCA, een GRPO-versterkingsleerframework dat een 'confidence-first'-paradigma mogelijk maakt door betrouwbaarheid en antwoordkwaliteit gelijktijdig te optimaliseren via gesegmenteerde credittoewijzing, waardoor de onzekerheidsschatting van grote taalmodellen betrouwbaarder en praktischer wordt.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

InfoGatherer is een raamwerk dat onzekerheid modelleert met behulp van Dempster-Shafer-betrouwbaarheidsverdelingen om via principieel bewijsmateriaal uit documenten en gerichte follow-upvragen betrouwbare beslissingen te ondersteunen in kritieke domeinen zoals juridische en medische taken.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Dit artikel presenteert een interpreteerbaar model dat psychologische theorieën combineert met taaldata van sociale media om dynamische mentale gezondheid te voorspellen door individuele eigenschappen en situationele context te integreren, waarbij theoriegedreven kenmerken concurrerende prestaties leveren met een hogere begrijpelijkheid dan pure taalembeddings.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Dit onderzoek concludeert dat, hoewel moderne grote taalmodellen rubric-gebaseerde evaluaties van Oostenrijkse A-niveau Duitse essays kunnen uitvoeren, hun lage overeenkomst met menselijke beoordelingen (maximaal 40,6% voor subdimensies en 32,8% voor eindcijfers) betekent dat ze momenteel niet betrouwbaar genoeg zijn voor gebruik in een echte gradingomgeving.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Deze studie toont aan dat het blootstellen van grote taalmodellen aan domeinspecifieke teksten via voortgezette vooropleiding hun persoonlijkheidsvorming beïnvloedt, waarbij een 'onderdrukkingsvoordeel' wordt ontdekt: verminderde sociale eigenschappen leiden tot betere complexe redeneerprestaties, wat een blauwdruk biedt voor 'persoonlijkheidsengineering'.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI