cs.CL papers | Gist.Science

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Deze paper introduceert KMP-Bench, een uitgebreid benchmark voor K-8 wiskundepedagogiek, en KMP-Pile, een groot dataset, om de pedagogische intelligentie van LLM's te evalueren en aan te tonen dat fijnafstemming op pedagogisch rijke data de effectiviteit van AI-tutors aanzienlijk verbetert.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Deze studie toont aan dat krachtige multimodale grote taalmodellen documentinformatie-extractie even effectief kunnen uitvoeren zonder OCR, mits ze worden ondersteund door zorgvuldig ontworpen schema's, voorbeelden en instructies.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Dit artikel introduceert GLEAN, een betrouwbaar verificatiekader voor LLM-agenten in hoog-risico domeinen zoals klinische diagnose, dat door richtlijn-gebaseerde bewijsaccumulatie en actieve verificatie de nauwkeurigheid en kalibratie aanzienlijk verbetert.

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Dit artikel toont aan dat gespecialiseerde kennis-tracering-modellen voor educatieve toepassingen grotere voorspellingsnauwkeurigheid bieden en aanzienlijk sneller en goedkoper zijn dan grote taalmodellen (LLMs).

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Dit artikel biedt een verenigde informatie-theoretische uitleg voor de frequentieverdeling van fonemen in wereldwijd talen door macroscopische patronen die overeenkomen met een Dirichlet-verdeling en microscopische voorspellingen gebaseerd op een Maximum Entropy-model te combineren.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Dit onderzoek toont aan dat grote visueel-taalmodellen diagrammen beter begrijpen dan relaties tussen elementen, omdat informatie over knopen en structurele kenmerken al vroeg in de visuele encoder lineair gecodeerd is, terwijl randinformatie pas later in de taalmodulatie ontstaat, wat de moeite met het interpreteren van richtingen en relaties verklaart.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

Eval4Sim is een evaluatiekader dat de nauwkeurigheid van door persona's gestuurde gesprekken meet door drie complementaire dimensies te analyseren: de impliciete codering van achtergrondkennis, de consistentie van de identiteit en de natuurlijkheid van de conversatiestroom, waarbij afwijkingen van menselijke gesprekspatronen worden bestraft in plaats van alleen optimalisatie te stimuleren.

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Dit paper introduceert ACE-Merging, een data-vrij raamwerk dat inter-taak interferentie bij het samenvoegen van modellen effectief oplost door een adaptieve schatting van de covariantie te gebruiken, wat leidt tot nieuwe state-of-the-art resultaten zonder extra trainingsdata.

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

Dit paper introduceert Contextualized Defense Instructing (CDI), een nieuw privacyverdedigingsparadigma voor LLM-agenten dat via versterkingslering contextbewuste, proactieve richtlijnen genereert om privacy en nuttigheid effectiever te balanceren dan bestaande statische methoden.

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Het paper introduceert MaBERT, een hybride encoder die Transformer- en Mamba-lagen combineert met innovatieve maskeringstechnieken om efficiënte en nauwkeurige taalmodellen voor lange contexten mogelijk te maken, waarbij de kwadratische schaalbaarheid van traditionele Transformers wordt overwonnen.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Dit paper introduceert TrustMH-Bench, een uitgebreid benchmarkkader dat de betrouwbaarheid van grote taalmodellen in de geestelijke gezondheidszorg systematisch evalueert langs acht kernpijlers en aantoont dat zowel algemene als gespecialiseerde modellen aanzienlijke tekortkomingen vertonen op dit gebied.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Dit paper introduceert TikZilla, een familie van kleine open-source modellen die, dankzij een hoogwaardig dataset (DaTikZ-V4) en een trainingspipeline met versterkt leren, tekst naar TikZ-code vertalen met een kwaliteit die GPT-4o overtreft en GPT-5 benadert.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

In dit artikel wordt TAO-Attack gepresenteerd, een geavanceerde optimalisatiegebaseerde jailbreak-methode voor grote taalmodellen die een tweestapsverliesfunctie en een richtingsprioriteitsstrategie voor tokenoptimalisatie combineert om de aanvalsuccespercentages aanzienlijk te verhogen ten opzichte van bestaande technieken.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Dit paper introduceert een nieuwe generatieve aanpak voor de detectie van argumentatieve componenten met behulp van compacte instructies in instructie-gefineerde grote taalmodellen, die volgens experimenten op standaard benchmarks betere prestaties levert dan bestaande state-of-the-art systemen.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Dit onderzoek toont aan dat bij self-supervised speech-modellen zoals WavLM specifieke sprekerseigenschappen, zoals toonhoogte en geslacht, geconcentreerd zijn in individuele dimensies van de feature-vectors, waardoor deze dimensies kunnen worden gemanipuleerd om de stemkarakteristieken bij spraaksynthese te controleren.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Deze studie introduceert een switch-matrix benchmark die aantoont dat het wisselen van modellen tijdens multi-turn gesprekken significante en gerichte prestatieafwijkingen veroorzaakt, wat handoff-robustheid als een cruciale, maar vaak over het hoofd geziene dimensie voor de operationele betrouwbaarheid van LLM-systemen benadrukt.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Dit paper introduceert UniSkill, een nieuw dataset en annotatiegids die universiteitscursussen koppelt aan ESCO-vaardigheden om taalmodellen te trainen voor effectieve curriculum-competentie matching.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

Dit paper introduceert APRES, een door LLM's aangedreven systeem dat wetenschappelijke artikelen automatisch herwerkt op basis van een citaatvoorspellende rubriek om de kwaliteit en impact te verhogen zonder de kerninhoud te wijzigen, waarbij menselijke experts worden ondersteund in plaats van vervangen.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Deze paper introduceert een type-bewuste retrieval-augmented generation-methode met dependency closure die natuurlijke taal omzet in uitvoerbare industriële optimalisatiemodellen door een gestructureerde kennisgrafiek te gebruiken, waardoor de betrouwbaarheid en uitvoerbaarheid aanzienlijk worden verbeterd ten opzichte van bestaande benaderingen.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Dit paper introduceert MoD-DPO, een efficiënt framework dat cross-modale hallucinaties in omni-taalmodellen vermindert door modality-decoupled voorkeuroptimalisatie te gebruiken om de afhankelijkheid van tekstuele priors te doorbreken en de perceptie van relevante audiovisuele modaliteiten te versterken.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

← Vorige Volgende →