cs.CL papers | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Dit paper introduceert ROSE, een geoptimaliseerde versie van SparseGPT die door middel van een twee-niveau herschikking van de pruning-sequentie gebaseerd op geschatte verlieswaarden, de prestaties van één-slag (one-shot) pruning van grote taalmodellen aanzienlijk verbetert.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Dit paper introduceert CoCA, een GRPO-versterkingsleerframework dat een 'confidence-first'-paradigma mogelijk maakt door betrouwbaarheid en antwoordkwaliteit gelijktijdig te optimaliseren via gesegmenteerde credittoewijzing, waardoor de onzekerheidsschatting van grote taalmodellen betrouwbaarder en praktischer wordt.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Het paper introduceert VerChol, een grammatica-gedreven tokenisatiemethode die de beperkingen van statistische tokenizers voor agglutinerende talen oplost door morfologische grenzen te respecteren in plaats van woorden willekeurig te fragmenteren.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Dit paper introduceert ConStory-Bench, een benchmark en geautomatiseerde checker om inconsistenties in langdurige verhalen gegenereerd door grote taalmodellen te evalueren en analyseert de patronen van deze fouten.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Dit paper introduceert een ensemble-methode met LLM's voor het semantisch taggen van VN-Veiligheidsraadresoluties, waarbij nieuwe evaluatiemetrics (CPR en TWF) worden gebruikt om hallucinaties te minimaliseren en de beste output te selecteren, zelfs met kostenefficiëntere modellen.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

InfoGatherer is een raamwerk dat onzekerheid modelleert met behulp van Dempster-Shafer-betrouwbaarheidsverdelingen om via principieel bewijsmateriaal uit documenten en gerichte follow-upvragen betrouwbare beslissingen te ondersteunen in kritieke domeinen zoals juridische en medische taken.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Dit paper introduceert LongNAP, een model dat multimodale gebruikersinteracties analyseert om de volgende actie te voorspellen, en toont aan dat het door het combineren van parametrisch en in-context leren significant beter presteert dan bestaande methoden.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Dit onderzoek toont aan dat het modelleren van de auteurscontext, een oplossing voor de ecologische valkuil, de prestaties van een groter 8B Llama-model significant verbetert, zowel tijdens het fine-tunen met QLoRA als bij voortgezette pre-training via de HuLM-opdracht.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Dit paper introduceert een gestructureerd herschrijvingskader met impliciete stijlvorming dat kleine taalmodellen in staat stelt om met weinig data en zonder extra inferentie-tokenen hoogwaardige, consistent gestileerde rollenspellen te genereren, zelfs op consumenthardware.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Dit artikel presenteert een interpreteerbaar model dat psychologische theorieën combineert met taaldata van sociale media om dynamische mentale gezondheid te voorspellen door individuele eigenschappen en situationele context te integreren, waarbij theoriegedreven kenmerken concurrerende prestaties leveren met een hogere begrijpelijkheid dan pure taalembeddings.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Dit paper introduceert ProCap, een nieuw raamwerk dat verandercaptioning transformeert van statische beeldvergelijking naar dynamisch proceduremodeling door een twee-traps architectuur te gebruiken die een procedure-encoder en leerbare query's combineert om expliciet te beschrijven hoe veranderingen plaatsvinden.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Dit paper introduceert Track-SQL, een framework dat generatieve taalmodellen verbetert voor multi-turn Text-to-SQL-taken door middel van twee extraherende modules voor schema- en contexttracking, wat leidt tot state-of-the-art prestaties op de SparC- en CoSQL-datasets.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Dit paper introduceert MASFactory, een grafiekgerichte framework voor het orkestreren van LLM-gebaseerde multi-agent systemen via 'Vibe Graphing', een mens-in-de-lus methode die natuurlijke taalintenties omzet in uitvoerbare workflows en herbruikbare componenten biedt.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion is een tweestapsframework dat multi-view ruimtelijke redenering verbetert door expliciete kruisbeeldvoorberekening te scheiden van de uiteindelijke vraagbeantwoording, wat leidt tot een significant hogere nauwkeurigheid op MMSI-Bench.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Dit onderzoek concludeert dat, hoewel moderne grote taalmodellen rubric-gebaseerde evaluaties van Oostenrijkse A-niveau Duitse essays kunnen uitvoeren, hun lage overeenkomst met menselijke beoordelingen (maximaal 40,6% voor subdimensies en 32,8% voor eindcijfers) betekent dat ze momenteel niet betrouwbaar genoeg zijn voor gebruik in een echte gradingomgeving.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Deze studie toont aan dat het blootstellen van grote taalmodellen aan domeinspecifieke teksten via voortgezette vooropleiding hun persoonlijkheidsvorming beïnvloedt, waarbij een 'onderdrukkingsvoordeel' wordt ontdekt: verminderde sociale eigenschappen leiden tot betere complexe redeneerprestaties, wat een blauwdruk biedt voor 'persoonlijkheidsengineering'.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

In dit paper presenteren de auteurs DeepSight, het eerste multimodale taalmodel dat specifiek is ontworpen om driedimensionale scene-interpretatie te verbeteren door dieptekaarten direct te koppelen aan taal, ondersteund door een nieuw dataset en een aangepaste ViT-encoder.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Dit artikel presenteert een neuro-symbolische pijplijn die grote taalmodellen en een SAT-oplosser combineert om impliciete premissen in enthymemen expliciet te maken en deze te vertalen naar logische formules voor het verifiëren van logische gevolgtrekkingen.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

Diffusion Language Models Are Natively Length-Aware

Deze paper introduceert een methode waarbij Diffusie-taalmodellen de benodigde uitvoerlengte schatten op basis van de prompt, waardoor het contextvenster dynamisch kan worden ingekort voor aanzienlijke rekenefficiëntie zonder prestatieverlies.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

← Vorige Volgende →