cs.CL papers | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Dit paper introduceert MITRA, een lokaal gehoste RAG-gebaseerde AI-assistent die gebruikmaakt van een geautomatiseerde documentpypeline en een tweelaagse vectordatabase om veilig en nauwkeurig contextbewuste vragen te beantwoorden over fysicanalyses binnen grote wetenschappelijke samenwerkingen zoals CMS.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Dit paper introduceert One-Eval, een agentisch systeem dat natuurlijke taalverzoeken omzet in traceerbare en aanpasbare evaluatieworkflows voor grote taalmodellen, waardoor de handmatige inspanning voor benchmarkselectie, dataverwerking en rapportage aanzienlijk wordt verminderd.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Dit paper introduceert een Chow-Liu-baas voor het ordenen van tekstchunks in Chain-of-Agents-systemen, waarbij een breedte-eerst-doorloop van de afgeleide afhankelijkheidsboom de informatieverlies minimaliseert en consequent betere prestaties levert dan standaard of semantische ordeningsmethodes op lange-contexttaken.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Dit artikel toont aan dat taalmodellen die het meest lijken op n-gramstatistieken, de leestijden bij het lezen van natuurlijke tekst het beste voorspellen, omdat leestijden gevoeliger zijn voor eenvoudige statistieken dan voor de complexe patronen van geavanceerde transformer-modellen.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Dit paper introduceert DoWhatISay (DOWIS), een meertalige dataset met gesproken en geschreven instructies om Speech Large Language Models realistischer te evalueren, waarbij blijkt dat tekstprompts vaak beter presteren dan gesproken prompts, behalve bij taken met spraakoutput.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Deze studie toont aan dat frontier-large-language-modellen, met name Claude, politieke standpunten effectiever kunnen beïnvloeden dan traditionele campagnemethoden, waarbij de effectiviteit van informatieve prompts en de prestaties per model sterk variëren.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Dit paper introduceert MSSR, een ervaringherhaalframework voor continue fine-tuning van grote taalmodellen dat op basis van geschatte geheugensterkte van individuele samples adaptieve herhalingsintervallen toepast om catastrofale vergeten te verminderen zonder de aanpassingssnelheid te vertragen.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Deze paper toont aan dat redenering de parametrische kennis van LLM's zelfs bij eenvoudige feitelijke vragen verbetert door een computationeel buffer-effect en feitelijke priming, maar waarschuwt dat halucinaties in tussenstappen de uiteindelijke nauwkeurigheid kunnen ondermijnen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Dit overzichtspaper introduceert het FUSE-taxonomiekader om de theorie, methoden, toepassingen en het ecosysteem van modelmerging in de era van grote taalmodellen gestructureerd te analyseren en toekomstige uitdagingen te identificeren.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

In tegenstelling tot mensen, die bij nadenken minder eerlijk worden, blijkt dat redenering bij grote taalmodellen de eerlijkheid verhoogt doordat het proces de modellen door een vertegenwoordigingsruimte leidt waar eerlijke antwoorden stabieler zijn dan leugenachtige.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Dit paper introduceert CREATE, een nieuwe benchmark voor het evalueren van het vermogen van taalmodellen tot associatief redeneren door concepten op specifieke en diverse manieren met elkaar te verbinden, waarbij blijkt dat de meest geavanceerde modellen beter presteren maar dat het benchmark nog niet verzadigd is en 'thinking'-modellen niet altijd effectiever zijn.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Dit artikel biedt een overzicht van de recente ontwikkelingen in grote taalmodellen (LLM's) door hun achtergrond, kernbevindingen en hoofdtechnieken te bespreken, met name gericht op pre-training, aanpassing, toepassing en evaluatie, terwijl het ook beschikbare bronnen en toekomstige uitdagingen samenvat.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

Dit artikel introduceert Agent-OM, een nieuw raamwerk dat LLM-agenten inzet voor het oplossen van semantische heterogeniteit tussen ontologieën en dat, zoals aangetoond door evaluaties op OAEI-benchmarks, uitstekende prestaties levert op zowel eenvoudige als complexe matching-taken.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Dit paper introduceert Llama-Mob, een instructie-getrainde Llama-3-8B-versie die door middel van vraag-en-antwoordinteracties superieure prestaties levert bij het voorspellen van langdurige menselijke mobiliteit in steden en sterke zero-shot generalisatie toont naar andere steden.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dit artikel presenteert een integratief model waarin taal- en sprekerverwerking functioneel verbonden zijn via multi-niveau probabilistische verwerking, waarbij zowel bottom-up perceptie als top-down verwachtingen de taalinterpretatie beïnvloeden en onderscheid maken tussen effecten van individuele vertrouwdheid en sociale demografische verwachtingen.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Dit paper introduceert een discrete key-value bottleneck (DKVB) voor encoder-only taalmodellen die catastrofale vergetelheid effectief tegengaat door middel van lokale updates, zelfs in uitdagende single-head scenario's zonder taak-ID's, terwijl het tegelijkertijd lagere rekenkosten biedt dan bestaande methoden.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Dit paper introduceert HarmonicEval, een referentievrije, meervoudige evaluatiemethode voor Vision-Language Models die criteria-specifieke scores combineert, en presenteert het MMHE-benchmark met 18.000 menselijke beoordelingen om de prestaties van dergelijke methoden in multi-task scenario's te valideren.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Dit onderzoek onderzoekt de invloed van inbeddings-priors op prompt-tuning en onthult dat modellen effectief kunnen werken met inbeddings in nieuwe gebieden van de activeringsruimte, terwijl het een duidelijke clustering van activeringen voor verre taken versus vergelijkbare NLP-taken laat zien.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Deze paper introduceert een pivot-gebaseerd ensemble-framework dat met één enkel model diverse vertaalkandidaten genereert en deze post-hoc samenvoegt om de vertaalkwaliteit voor taalkoppels met beperkte bronnen te verbeteren zonder de hoge rekentkosten van traditionele ensemble-methoden.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Dit paper introduceert GRADIEND, een nieuwe encoder-decoder-methode die modelgradiënten gebruikt om bias-gerelateerde neurale kenmerken te identificeren en modellen effectief te debiasen zonder hun andere vaardigheden te verliezen.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Vorige Volgende →