cs.CL papers | Gist.Science

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Dit paper introduceert een nieuw Tsjechisch dataset voor aspectgebaseerde sentimentanalyse met annotaties van meningsuitingen, presenteert een LLM-gebaseerde vertaal- en labelalignatiemethode om cross-linguale uitdagingen aan te pakken, en evalueert de prestaties van moderne modellen in diverse taalsettingen.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Deze studie toont aan dat voor de inzet van kleine open-source taalmodellen in zorgomgevingen met beperkte middelen niet alleen nauwkeurigheid, maar ook promptconsistentie en instructie-opvolging cruciaal zijn, waarbij Llama 3.2 de beste balans biedt en hoge consistentie niet garandeert dat het antwoord juist is.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Dit onderzoek analyseert de robuustheid van bestaande zero-shot relation extraction-modellen onder realistische aannames, introduceert een typologie en strategieën voor single-pass-modellen met afwijzingsmechanismen, en concludeert dat hoewel geen enkel bestaand werk volledig robuust is, AlignRE de beste prestaties levert.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

Deze studie toont aan dat LLM-gebaseerde taakbots gevoelig zijn voor privacyrisico's door het onbedoeld onthouden van trainingsdata, en presenteert een nieuwe aanvalsmethode die duizenden dialooglabels succesvol kan extraheren, waardoor de noodzaak van gerichte mitigatiestrategieën wordt onderstreept.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Dit paper introduceert een kwalitatief georiënteerd annotatiekader voor narratieve grafieken over inflatie, waarbij een experimenteel ontwerp aantoont dat lokale representaties de variatie tussen annotatoren verminderen en dat overlap-gebaseerde metrieken de betrouwbaarheid overschatten.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Dit hoofdstuk biedt een overzicht van verantwoord gebruik van detectoren voor door AI gegenereerde essays en presenteert empirische analyses over de generaliseerbaarheid van deze detectoren tussen verschillende grote taalmodellen.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Dit artikel analyseert de beperkingen van TeX in het tijdperk van grote taalmodellen en introduceert Mogan STEM als een efficiënter WYSIWYG-alternatief dat snellere compilatie, betere foutlokalisatie en een lagere informati-entropie biedt voor het fine-tunen van LLM's.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Deze paper introduceert een multi-agent collaboratief framework dat het menselijke 'voorstellen-evalueren-aanpassen'-proces nabootst om via versterkingsleer synthetische data te genereren en te valideren, waardoor de prestaties van zero-shot document-level event argument-extractie aanzienlijk worden verbeterd.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Dit paper introduceert een multi-agent framework dat code-gebaseerde agents gebruikt om bestaande wiskundeproblemen autonoom te evolueren naar complexere, oplosbare varianten, waarmee een schaalbare oplossing wordt geboden voor het tekort aan uitdagende trainingsdata voor geavanceerde wiskundige redenering.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

Het paper introduceert AriadneMem, een gestructureerd geheugensysteem voor LLM-agenten dat middels een gefaseerde aanpak met entropiebewuste filtering en conflictbewuste samenvoeging de uitdagingen van losgekoppelde bewijslast en statische updates oplost, wat resulteert in aanzienlijke verbeteringen in meerhop-precisie en een drastische reductie van de runtime.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Deze paper identificeert aanhoudende en nieuwe biases in beloningsmodellen voor taalmodellen en introduceert een effectieve, post-hoc mechanische beloningsvorming om deze te verminderen zonder de algehele kwaliteit te schaden.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Het paper introduceert MA-RAG, een multi-round agentic RAG-framework dat medische redenering verbetert door semantische conflicten om te zetten in iteratieve zoekopdrachten en een versterkingsmechanisme te gebruiken om consensus te bereiken, wat resulteert in een aanzienlijke stijging van de nauwkeurigheid op medische benchmarks.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Het paper introduceert SE-Search, een zelfevoluerende zoekagent die hallucinaties in grote taalmodellen vermindert door een 'Denk-Zoek-Geheugen'-strategie te combineren met geheugenzuivering, atomaire query-training en dichte beloningen, wat resulteert in aanzienlijk betere prestaties dan bestaande methoden op vraagbeantwoordingsbeproevingen.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Dit paper introduceert een hybride LLM-architectuur voor landbouwadvies die, door gesuperviseerde fine-tuning op gecureerde feiten en een aparte 'stitching'-laag voor veiligheidsbewuste communicatie, nauwkeurigere en veiliger antwoorden biedt voor kleine boeren in Bihar, India, dan standaardmodellen.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Deze studie toont aan dat grote taalmodellen bij het autonoom kiezen van doelen in open-ended taken sterk afwijken van menselijk gedrag door te vervallen in exploitatie of lage prestaties, waardoor ze ongeschikt zijn als vervanging voor mensen in toepassingen zoals persoonlijk assistentie en beleidsresearch.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Het artikel introduceert PlugMem, een taakongebonden plugin-module voor LLM-agenten die episodische herinneringen omzet in een compacte, kennisgerichte graaf om efficiëntere zoekopdrachten en redenering mogelijk te maken dan bestaande methoden.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Dit artikel introduceert TTSR, een zelfreflecterend testtijd-trainingsframework dat de redeneerprestaties van grote taalmodellen verbetert door een voortdurende cyclus waarin het model als leraar en leerling optreedt om gerichte variantvragen te genereren op basis van eerdere fouten.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA is een trainingsvrije methode die door het dynamisch genereren van voorbeeldzinnen per individuele taak, zonder gebruik van gelabelde data of kostbare optimalisatie, de prestaties van grote taalmodellen op tekstclassificatie en wiskundig redeneren verbetert.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Deze studie auditeert de fabricage van academische citaten door tien grote taalmodellen, kwantificeert de hallucinatiepercentages over verschillende domeinen en modellen, en presenteert effectieve detectiemethoden zoals multi-model consensus en een lichtgewicht classifier die hallucinaties kan identificeren zonder externe databases.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Deze studie toont aan dat hoewel bestaande RAG-modellen en commerciële juridische AI-tools vaak falen bij het benchmarken van Amerikaanse werkloosheidsverzekeringen, een aangepast tool (STARA) aanzienlijk betere resultaten boekt en bovendien blootlegt dat veel vermeende fouten eigenlijk omissies in de menselijke grondwaarheid zijn, wat leidt tot concrete richtlijnen voor de ontwikkeling van nauwkeurige juridische AI-systemen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

← Vorige Volgende →