Aligning Large Language Models with Searcher Preferences

Deze paper introduceert SearchLLM, het eerste grote taalmodel voor open-ended generatieve zoekopdrachten dat wordt getraind met een hiërarchisch beloningssysteem en GRPO om robuuste, veilige en op gebruikersvoorkeuren afgestemde antwoorden te genereren, wat resulteerde in verbeterde kwaliteit en betrokkenheid in de AI-zoekfunctie van RedNote.

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong2026-03-12💬 cs.CL

PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

Dit paper introduceert PEEM, een unificerend framework dat prompts en antwoorden van grote taalmodellen via een gestructureerde rubric van negen criteria en een LLM-gebaseerde evaluator gezamenlijk evalueert, waardoor niet alleen nauwkeurigheid wordt gemeten maar ook interpreteerbare inzichten worden geboden voor systematische diagnose en optimalisatie van prompt-engineering.

Minki Hong, Eunsoo Lee, Sohyun Park, Jihie Kim2026-03-12💬 cs.CL

Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

Deze studie introduceert PULSE, een medisch redeneeragent die een domein-tuned taalmodel combineert met wetenschappelijke literatuurretrieval om artsen te ondersteunen bij complexe diagnoses, waarbij het prestaties van senior specialisten evenaart en stabiel blijft bij zeldzame ziekten, hoewel het bij samenwerking ook risico's op automatiseringsbias met zich meebrengt.

Zhongzhen Huang, Yan Ling, Hong Chen, Ye Feng, Li Wu, Linjie Mu, Shaoting Zhang, Xiaofan Zhang, Kun Qian, Xiaomu Li2026-03-12💬 cs.CL

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Dit paper introduceert VERI-DPO, een methode die claimverificatie en Direct Preference Optimization combineert om klinische samenvattingen uit EHR-data te genereren die zowel informatief als strikt gefundeerd zijn, waardoor het aantal niet-onderbouwde beweringen aanzienlijk daalt.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Dit paper introduceert IH-Challenge, een reinforcement learning-dataset die de instructiehiërarchie van frontier LLMs verbetert, waardoor de weerbaarheid tegen jailbreaks en prompt-injecties aanzienlijk toeneemt zonder de nuttigheid van het model te verminderen.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

In dit paper presenteren de auteurs van AILS-NTUA een unificerend systeem voor SemEval-2026 Taak 8 dat, door te focussen op query-diversiteit in plaats van diverse retrievers en een meerstaps generatiepijplijn, de eerste plaats behaalt bij passage-retrieval en de tweede bij referentie-gedreven antwoordgeneratie in multi-turn RAG-conversaties.

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou2026-03-12💬 cs.CL

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

Dit artikel introduceert Group Relative Reward Rescaling (GR³), een methode die lengte-inflatie in versterkingslerende taalmodellen effectief tegengaat zonder prestatie-inlevering door het probleem te herformuleren als een multiplicatief herschalingsschema in plaats van additieve straffen.

Zichao Li, Jie Lou, Fangchen Dong, Zhiyuan Fan, Mengjie Ren, Hongyu Lin, Xianpei Han, Debing Zhang, Le Sun, Yaojie Lu, Xing Yu2026-03-12🤖 cs.LG

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Deze empirische studie toont aan dat LLM-afstemming op morele redenering geen diversiteitsbevorderende algoritmen vereist, omdat standaard RLVR-methode voor beloningsmaximalisatie even effectief zijn dankzij de geconcentreerde aard van hoogwaardige morele antwoorden.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Disentangling Similarity and Relatedness in Topic Models

Dit artikel introduceert een nieuwe evaluatieframework dat onderscheid maakt tussen thematische verwantschap en taxonomische gelijkenis in onderwerpmodellen, waarbij wordt aangetoond dat het integreren van PLM-embeddings de semantische structuur van onderwerpen fundamenteel verandert en dat deze dimensies cruciaal zijn voor het voorspellen van prestaties op downstream-taken.

Hanlin Xiao, Mauricio A. Álvarez, Rainer Breitling2026-03-12💬 cs.CL

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Het paper introduceert DxEvolve, een zelfevoluerend diagnostisch agent dat de kloof tussen klinische cognitie en huidige AI-systemen dicht door interactieve onderzoekswerkflows te gebruiken voor het autonomisch aanvragen van onderzoeken en het omzetten van ervaring in een beheersbaar leermiddel, wat resulteert in een significante verbetering van de diagnoseprecisie.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

Prism-Δ\Delta: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Het artikel introduceert PRISM-Δ\Delta, een methode die door het decomponeren van covariantiematrices en het toewijzen van gewichten aan attention heads de precisie van prompt-highlighting in grote taalmodellen aanzienlijk verbetert, terwijl het tegelijkertijd de vloeiendheid behoudt en compatibel is met FlashAttention.

Yuyao Ge, Shenghua Liu, Yiwei Wang, Tianyu Liu, Baolong Bi, Lingrui Mei, Jiayu Yao, Jiafeng Guo, Xueqi Cheng2026-03-12💬 cs.CL