cs.CL papers | Gist.Science

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Dit paper introduceert CareMedEval, een nieuw dataset gebaseerd op Franse medische examens en wetenschappelijke artikelen om de kritische beoordeling en redeneringsvaardigheden van grote taalmodellen in de biomedische wetenschap te evalueren, waarbij blijkt dat zelfs geavanceerde modellen moeite hebben met het analyseren van studielimietaties en statistische analyses.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Deze studie introduceert HealthQuote.NL, een corpus van metaforen uit interviews en forums van Nederlandse kankerpatiënten, dat met behulp van grote taalmodellen en menselijke validatie is samengesteld om de zorgcommunicatie en besluitvorming te verbeteren.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Dit onderzoek toont aan dat appraisals, die de subjectieve cognitieve evaluatie van een argument weergeven, een betere voorspeller zijn van de overtuigingskracht dan categorische emoties.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Dit paper presenteert een multimodaal groot taalmodel voor het Baskisch dat, ondanks het gebruik van een niet-Baskisch aangepaste backbone, sterke prestaties levert met slechts een klein percentage Baskische multimodale trainingsdata en zo een weg vrijmaakt voor de ontwikkeling van dergelijke modellen voor andere taalarme talen.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Dit paper introduceert Dripper, een lichtgewicht framework dat hoofdinhoud van webpagina's efficiënt en nauwkeurig extraheert door middel van geconstrueerde sequentiemarkering met kleine taalmodellen, waardoor het de prestaties van zware generatieve modellen benadert met een veel lagere rekenkost.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Deze studie onderzoekt welke bronwoorden vertaalmodellen triggeren bij het kiezen van een geslachtsinflectie in het Duits of Spaans, en toont aan dat de door contrastieve uitleg geïdentificeerde saliente woorden overeenkomen met menselijke percepties, wat essentieel is voor het mitigeren van genderbias.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

Dit paper introduceert NRR-Core, een computationeel raamwerk dat ambiguïteit behoudt in plaats van deze voortijdig op te lossen, door principes zoals niet-identiteit en niet-resolutie te implementeren om contextuele identiteit en interpretatieve flexibiliteit te waarborgen.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Deze studie analyseert systematisch de politieke, ideologische, geopolitieke, taalkundige en gendergerelateerde vooroordelen in vier wijdverspreide grote taalmodellen en concludeert dat, ondanks hun uitlijning op neutraliteit, deze modellen toch verschillende vormen van bias vertonen.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Dit artikel toont aan dat versterkt leren met verifieerbare beloningen (RLVR) de generalisatie van causale redenering bij grote taalmodellen verbetert ten opzichte van toezichtsfine-tuning, maar dat dit succes afhankelijk is van een voldoende initiële redeneercompetentie van het model.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Dit paper introduceert DevRev-Search, een benchmark en een schaalbaar framework voor multi-tenant zoeksystemen dat gebruikmaakt van een volledig geautomatiseerd datasetbouwpipeline en een indexbehoudende aanpassingsstrategie om alleen de query-encoder te finetunen, waardoor effectieve domeinadaptatie mogelijk wordt zonder kostbare herschrijving van documentindices.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Dit artikel introduceert een post-training pipeline waarbij kennisgrafieken fungeren als impliciete beloningsmodellen om taalmodellen te trainen in compositief redeneren, wat resulteert in superieure prestaties op complexe meerstapsvragen in de medische domein vergeleken met grotere frontier-modellen.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

Dit paper introduceert NRR-Phi, een formeel raamwerk dat natuurlijke taal omzet in een niet-collabserende toestandsruimte om de vroegtijdige semantische vastlegging in grote taalmodellen te voorkomen en zo meerdere interpretaties van ambiguïteit gelijktijdig te behouden.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Dit artikel introduceert een nieuwe trainingspipeline die Chain-of-Thought-supervisie combineert met versterkingslering om taalsmodellen beter te leren om bij tijdsgebonden vragen af te zien van het geven van een antwoord als ze onzeker zijn, waardoor ze betrouwbaarder en nauwkeuriger worden dan bestaande modellen zoals GPT-4o.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Dit paper introduceert REAL, een nieuw framework dat verifieerbare beloningen herkijkt als classificatielabels in plaats van scalair gewichten om de inefficiënties van bestaande RLVR-methoden zoals GRPO te verhelpen en zo de prestaties en stabiliteit van taalmodellen op wiskundige redeneertaken aanzienlijk te verbeteren.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

Het paper introduceert SureLock, een methode die de rekenkosten van Masked Diffusion-LM-decodering aanzienlijk verlaagt door tokens die al zijn geconvergeerd te vergrendelen en hun bijdrage aan de berekening over te slaan, terwijl hun context voor andere tokens behouden blijft.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Deze studie onthult dat Large Reasoning Models niet consistent beter presteren dan niet-redenerende modellen in Theory of Mind-taken, omdat hun 'slow thinking'-aanpak vaak faalt door lengte-afhankelijke afname van nauwkeurigheid en een overmatige afhankelijkheid van antwoordopties in plaats van echte deductie.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Dit onderzoek introduceert het eerste NLP-dataset voor het Mainz-dialect Meenzerisch en toont aan dat huidige grote taalmodellen, zelfs met few-shot learning en regelgebaseerde aanpakken, nog niet in staat zijn om betrouwbare vertalingen of generaties in dit dialect uit te voeren, wat urgente extra onderzoeksinspanningen vereist.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Dit paper introduceert een nieuw Tsjechisch dataset voor aspectgebaseerde sentimentanalyse met annotaties van meningsuitingen, presenteert een LLM-gebaseerde vertaal- en labelalignatiemethode om cross-linguale uitdagingen aan te pakken, en evalueert de prestaties van moderne modellen in diverse taalsettingen.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Deze studie toont aan dat voor de inzet van kleine open-source taalmodellen in zorgomgevingen met beperkte middelen niet alleen nauwkeurigheid, maar ook promptconsistentie en instructie-opvolging cruciaal zijn, waarbij Llama 3.2 de beste balans biedt en hoge consistentie niet garandeert dat het antwoord juist is.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Dit onderzoek analyseert de robuustheid van bestaande zero-shot relation extraction-modellen onder realistische aannames, introduceert een typologie en strategieën voor single-pass-modellen met afwijzingsmechanismen, en concludeert dat hoewel geen enkel bestaand werk volledig robuust is, AlignRE de beste prestaties levert.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

← Vorige Volgende →