cs.CL papers | Gist.Science

Speech Codec Probing from Semantic and Phonetic Perspectives

Dit artikel analyseert dat bestaande spraaktokenizers voornamelijk fonetische in plaats van semantische informatie vastleggen, wat leidt tot praktische aanbevelingen voor het ontwerp van toekomstige tokenisatiemethoden.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth Narayanan2026-03-12⚡ eess

Aligning Large Language Models with Searcher Preferences

Deze paper introduceert SearchLLM, het eerste grote taalmodel voor open-ended generatieve zoekopdrachten dat wordt getraind met een hiërarchisch beloningssysteem en GRPO om robuuste, veilige en op gebruikersvoorkeuren afgestemde antwoorden te genereren, wat resulteerde in verbeterde kwaliteit en betrokkenheid in de AI-zoekfunctie van RedNote.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong2026-03-12💬 cs.CL

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Dit paper introduceert een multi-agent onderhandelingsframework dat grote taalmodellen traint om collectieve waarden te aligneren en conflicten op te lossen via zelfspel en RLAIF, zonder in te leveren op algemene taalvaardigheden.

Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi2026-03-12💬 cs.CL

PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

Dit paper introduceert PEEM, een unificerend framework dat prompts en antwoorden van grote taalmodellen via een gestructureerde rubric van negen criteria en een LLM-gebaseerde evaluator gezamenlijk evalueert, waardoor niet alleen nauwkeurigheid wordt gemeten maar ook interpreteerbare inzichten worden geboden voor systematische diagnose en optimalisatie van prompt-engineering.

Minki Hong, Eunsoo Lee, Sohyun Park, Jihie Kim2026-03-12💬 cs.CL

Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

Deze studie introduceert PULSE, een medisch redeneeragent die een domein-tuned taalmodel combineert met wetenschappelijke literatuurretrieval om artsen te ondersteunen bij complexe diagnoses, waarbij het prestaties van senior specialisten evenaart en stabiel blijft bij zeldzame ziekten, hoewel het bij samenwerking ook risico's op automatiseringsbias met zich meebrengt.

Zhongzhen Huang, Yan Ling, Hong Chen, Ye Feng, Li Wu, Linjie Mu, Shaoting Zhang, Xiaofan Zhang, Kun Qian, Xiaomu Li2026-03-12💬 cs.CL

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Dit paper introduceert VERI-DPO, een methode die claimverificatie en Direct Preference Optimization combineert om klinische samenvattingen uit EHR-data te genereren die zowel informatief als strikt gefundeerd zijn, waardoor het aantal niet-onderbouwde beweringen aanzienlijk daalt.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

Safe and Scalable Web Agent Learning via Recreated Websites

Dit paper introduceert VeriEnv, een framework dat taalmodellen gebruikt om veilige, verifieerbare synthetische klonen van bestaande websites te creëren, waardoor autonome webagenten veilig en schaalbaar kunnen worden getraind zonder afhankelijk te zijn van onveilige real-world interacties.

Hyungjoo Chae, Jungsoo Park, Alan Ritter2026-03-12💬 cs.CL

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Dit paper introduceert IH-Challenge, een reinforcement learning-dataset die de instructiehiërarchie van frontier LLMs verbetert, waardoor de weerbaarheid tegen jailbreaks en prompt-injecties aanzienlijk toeneemt zonder de nuttigheid van het model te verminderen.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

In dit paper presenteren de auteurs van AILS-NTUA een unificerend systeem voor SemEval-2026 Taak 8 dat, door te focussen op query-diversiteit in plaats van diverse retrievers en een meerstaps generatiepijplijn, de eerste plaats behaalt bij passage-retrieval en de tweede bij referentie-gedreven antwoordgeneratie in multi-turn RAG-conversaties.

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou2026-03-12💬 cs.CL

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

Dit artikel introduceert Group Relative Reward Rescaling (GR³), een methode die lengte-inflatie in versterkingslerende taalmodellen effectief tegengaat zonder prestatie-inlevering door het probleem te herformuleren als een multiplicatief herschalingsschema in plaats van additieve straffen.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Automatic End-to-End Data Integration using Large Language Models

Dit paper introduceert een volledig geautomatiseerde data-integratiepijplijn die GPT-5.2 gebruikt om alle benodigde artefacten te genereren, en toont aan dat deze methode vergelijkbare of zelfs betere resultaten oplevert dan menselijk ontworpen pijplijnen tegen een fractie van de kosten.

Aaron Steiner, Christian Bizer2026-03-12💬 cs.CL

End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering

Dit paper introduceert een schaalbaar, automatisch evaluatiesysteem voor chatbots dat vraag-antwoordparen genereert uit de kennisbank, antwoorden beoordeelt met grote taalmodellen en onzekere gevallen filtert, waardoor de menselijke beoordelingslast aanzienlijk wordt verminderd.

Nhi Dang, Tung Le, Huy Tien Nguyen2026-03-12💬 cs.CL

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Deze empirische studie toont aan dat LLM-afstemming op morele redenering geen diversiteitsbevorderende algoritmen vereist, omdat standaard RLVR-methode voor beloningsmaximalisatie even effectief zijn dankzij de geconcentreerde aard van hoogwaardige morele antwoorden.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

MUNIChus: Multilingual News Image Captioning Benchmark

Dit paper introduceert MUNIChus, het eerste meertalige benchmark voor nieuwsbeeldcaptioning dat negen talen omvat, waaronder minderheidstalen, en de uitdagingen bij het evalueren van state-of-the-art modellen in deze domein belicht.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

Disentangling Similarity and Relatedness in Topic Models

Dit artikel introduceert een nieuwe evaluatieframework dat onderscheid maakt tussen thematische verwantschap en taxonomische gelijkenis in onderwerpmodellen, waarbij wordt aangetoond dat het integreren van PLM-embeddings de semantische structuur van onderwerpen fundamenteel verandert en dat deze dimensies cruciaal zijn voor het voorspellen van prestaties op downstream-taken.

Hanlin Xiao, Mauricio A. Álvarez, Rainer Breitling2026-03-12💬 cs.CL

Reinforcement Learning with Conditional Expectation Reward

Dit artikel introduceert Conditional Expectation Reward (CER), een methode die grote taalmodellen gebruikt als impliciete verifiers om versterkingslering met verifieerbare beloningen uit te breiden naar domeinen met vrije antwoorden door een zachte, graduele beloning te bieden op basis van de waarschijnlijkheid van het genereren van een referentieantwoord.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Making Bielik LLM Reason (Better): A Field Report

Dit artikel beschrijft een onderzoeksprogramma gericht op het evalueren en verbeteren van de redeneervermogens van het Poolse grote taalmodel Bielik, waarbij de resultaten worden vergeleken met andere modellen en toekomstperspectieven worden geschetst om Bielik competitief te houden in de snel veranderende AI-landschap.

Adam Trybus, Bartosz Bartnicki, Remigiusz Kinas2026-03-12💬 cs.CL

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Het paper introduceert DxEvolve, een zelfevoluerend diagnostisch agent dat de kloof tussen klinische cognitie en huidige AI-systemen dicht door interactieve onderzoekswerkflows te gebruiken voor het autonomisch aanvragen van onderzoeken en het omzetten van ervaring in een beheersbaar leermiddel, wat resulteert in een significante verbetering van de diagnoseprecisie.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Dit paper introduceert EvoSchema, een uitgebreid benchmarkkader dat een nieuwe taxonomie van schema-evoluties gebruikt om de robuustheid van text-to-SQL-systemen te evalueren en te verbeteren tegenover dynamische veranderingen in databaseschema's.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao Li2026-03-12💬 cs.CL

Prism- $\Delta$ : Differential Subspace Steering for Prompt Highlighting in Large Language Models

Het artikel introduceert PRISM- $\Delta$ , een methode die door het decomponeren van covariantiematrices en het toewijzen van gewichten aan attention heads de precisie van prompt-highlighting in grote taalmodellen aanzienlijk verbetert, terwijl het tegelijkertijd de vloeiendheid behoudt en compatibel is met FlashAttention.

Yuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng2026-03-12💬 cs.CL

← Vorige Volgende →

cs.CL