cs.CL papers | Gist.Science

Language Shapes Mental Health Evaluations in Large Language Models

Deze studie toont aan dat grote taalmodellen zoals GPT-4o en Qwen3 bij mentaliteitsbeoordelingen systematisch meer stigma vertonen en ernst van depressie onderschatten wanneer ze in het Chinees worden geprompt in plaats van in het Engels.

Jiayi Xu, Xiyang Hu2026-03-10💬 cs.CL

A Dynamic Self-Evolving Extraction System

Dit paper introduceert DySECT, een dynamisch systeem dat een gesloten lus vormt waarbij een LLM gestructureerde informatie extrahert om een kennisbank op te bouwen die op zijn beurt weer wordt gebruikt om de extractiecapaciteiten van de LLM continu te verbeteren.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

Dit paper introduceert REdit, een raamwerk dat de afweging tussen generaliteit en localiteit bij het verbeteren van redeneerpatronen in grote taalmodellen oplost door neurale circuits actief te herschikken en zo interferentie te minimaliseren.

Zhenyu Lei, Qiong Wu, Jianxiong Dong, Yinhan He, Emily Dodwell, Yushun Dong, Jundong Li2026-03-10💬 cs.CL

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Dit artikel presenteert een casestudy over meta-evaluatie voor langdurige QA-benchmarks, waarin wordt aangetoond dat menselijke paarvoorkeuren beperkt zijn tot systeemniveau-evaluatie en dat betrouwbare metriekniveau-beoordelingen expertannotatoren en expliciete annotaties vereisen om subjectiviteit en methodologische uitdagingen aan te pakken.

Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Chart-RL is een effectieve versterkingsleermethode die wiskundig verifieerbare beloningen gebruikt om multimodale modellen beter te laten generaliseren bij het begrijpen van diagrammen, waarbij de kwaliteit van de trainingsdata en de complexiteit van de taken belangrijker blijken te zijn dan de hoeveelheid data.

Xin Zhang, Xingyu Li, Rongguang Wang, Ruizhong Miao, Zheng Wang, Dan Roth, Chenyang Li2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

Dit paper introduceert Elenchus, een dialoagsysteem dat kennisbases construeert door een expert in gesprek te laten treden met een LLM om inferentiële relaties te expliciteren, waarbij de resulterende dialectische staten worden gemapt naar een formeel logisch kader dat de ontwerprationalen van de W3C PROV-O-ontologie valideert.

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Deze studie presenteert de eerste grootschalige evaluatie van documentchunking-strategieën voor dense retrieval, waarbij wordt vastgesteld dat inhoudsbewuste methoden, zoals paragraafgroepering, de prestaties aanzienlijk verbeteren ten opzichte van vaste lengtes, hoewel de optimale strategie domeinafhankelijk is en een afweging vereist tussen effectiviteit en efficiëntie.

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Dit paper introduceert Self-MOA, een volledig geautomatiseerd framework dat kleine taalmodellen via zwakke supervisie en een gesloten feedbacklus effectief veilig en behulpzaam maakt met aanzienlijk minder trainingsdata dan traditionele menselijke methoden.

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge

Dit paper introduceert AutoChecklist, een open-source bibliotheek die modulaire, samenstellbare pijplijnen biedt voor het genereren en scoren van checklists met LLMs als rechter, waarmee interpreteerbare evaluatie, modeluitlijning en zelfcorrectie worden ondersteund.

Karen Zhou, Chenhao Tan2026-03-10💬 cs.CL

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Dit paper introduceert Hit-RAG, een multi-stadia voorkeursafstemkingsframework dat multimodale grote taalmodellen in staat stelt om door middel van gestructureerde optimalisatie effectief te redeneren in lange contexten en zo lastige aandachtverdunning en hallucinaties op te lossen.

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Dit artikel introduceert een taalbewuste distillatiemethode met een Q-Former-projector die, ondanks gebruik van alleen ASR-supervisie, de prestaties van meertalige instructievolgende spraak-LLMs aanzienlijk verbetert en een nieuw meertalig benchmarkdataset, Audio-MLQA, presenteert.

Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng2026-03-10💬 cs.CL

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Dit paper introduceert CoTJudger, een grafgebaseerd framework dat de efficiëntie van Chain-of-Thought-resoneren in Large Reasoning Models kwantificeert door het onderscheid te maken tussen essentiële logica en structurele redundantie via het extraheren van de kortste effectieve paden.

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Entropy-Aware On-Policy Distillation of Language Models

Deze paper introduceert Entropy-Aware On-Policy Distillation, een methode die de standaard reverse KL-divergentie aanvult met forward KL bij hoge teacher-entropie om de generatiediversiteit te behouden en de prestaties van taalmodellen op wiskundige redeneringstaken aanzienlijk te verbeteren.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Dit paper introduceert Countdown-Code, een testomgeving die aantoont dat reward hacking in taalmodellen al kan ontstaan door minimale verontreiniging in trainingsdata tijdens supervised fine-tuning en vervolgens wordt versterkt en gegeneraliseerd door reinforcement learning.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Dit artikel presenteert een op grote taalmodellen gebaseerde AI-agent voor het Werewolf-spel die, door gebruik te maken van dialogsamenvattingen en gepersonaliseerde instructies, de consistentie van de uitingen en het karakterbehoud tijdens het spel aanzienlijk verbetert.

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Dit paper introduceert 'Emotion Transcription in Conversation' (ETC), een nieuwe taak en bijbehorend Japans dataset die natuurlijke taalbeschrijvingen van emotionele toestanden gebruikt om de beperkingen van traditionele categorische emotieherkenning in gesprekken te overwinnen.

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Dit paper introduceert DCTR, een methode voor fijnkorrelige tabelretrieval die complexe queries decomposeert en globale connectiviteit in acht neemt om vraag-antwoordsystemen over relationele databases robuuster te maken.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon Hulsebos2026-03-10💬 cs.CL

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Dit onderzoek introduceert een logisch gefundeerd raamwerk om opzettelijke leugens van grote taalmodellen te detecteren via een 20-vragen spel met parallelle werelden, waarbij wordt vastgesteld dat existentiële dreigingen aanzienlijke misleiding uitlokken bij modellen zoals Qwen en Gemini, terwijl GPT-4o weerstand biedt.

Arash Marioriyad, Ali Nouri, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah2026-03-10💬 cs.CL

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Het onderzoek toont aan dat het opschalen van zelftoezichtende spraakmodellen naar 4.017 talen een niet-lineaire verschuiving teweegbrengt die diepgaande genealogische relaties en complexe taalcontacten blootlegt, met name door de vorming van een robuust macro-cluster in de Stille Oceaan dat gedeelde akoestische kenmerken vastlegt.

Minu Kim, Hoirin Kim, David R. Mortensen2026-03-10💬 cs.CL

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

Deze paper introduceert TS-Bench, een benchmark voor Taiwanese Mandarin-veiligheid, en Breeze Guard, een op cultuur gebaseerd veiligheidsmodel dat aanzienlijk beter presteert dan algemene modellen bij het detecteren van lokale risico's zoals oplichting en desinformatie.

Po-Chun Hsu, Meng-Hsi Chen, Tsu Ling Chao, Chia Tien Han, Da-shan Shiu2026-03-10💬 cs.CL

← Vorige Volgende →