cs.CL papers | Gist.Science

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Dit paper introduceert MultiWikiQA, een leesbegripbenchmark met meer dan 1,2 miljoen voorbeelden in 306 talen die door middel van LLM-generatie en menselijke evaluatie is opgezet om de prestaties van taalmodellen te testen en aanzienlijke verschillen tussen talen aan het licht te brengen.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Deze paper introduceert een lichtgewicht token-pruningframework dat door het filteren van niet-informatieve achtergrondgebieden de rekenkosten voor documentbegrip in vision-language modellen aanzienlijk verlaagt zonder de nauwkeurigheid te schaden.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Deze paper introduceert StaR, een multimodale redeneermethode die de betrouwbaarheid van GUI-interacties verbetert door agents in staat te stellen de huidige toestand van schakelaars te herkennen en zo de uitvoering van toggle-instructies aanzienlijk te verhogen.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Dit paper introduceert het Contextualized Argument Appraisal Framework, dat de interactie tussen zender, ontvanger en argument modelleert om te verklaren hoe subjectieve cognitieve beoordelingen en emoties de overtuigingskracht van argumenten beïnvloeden, ondersteund door een nieuw corpus van 4000 annotaties.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Deze paper introduceert een nieuwe niet-samenwerkende gebruikerssimulator die vier categorieën van uitdagend gedrag nabootst om tool-agents te trainen en te testen, waarbij experimenten aantonen dat bestaande agents significant prestatieverlies lijden bij dergelijke realistische interacties.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Deze paper introduceert PDR-Bench, het eerste benchmark voor het evalueren van personalisatie in diepe onderzoeksagenten, en stelt het PQR-evaluatiekader op om de prestaties van deze systemen op het gebied van personalisatie, inhoudskwaliteit en feitelijke betrouwbaarheid te meten.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

Dit paper introduceert GraphMERT, een efficiënt en schaalbaar neurosymbolisch model dat ongestructureerde tekst omzet in betrouwbare, ontologie-consistente kennisgrafieken met een aanzienlijk hogere feitelijke nauwkeurigheid en validiteit dan grote taalmodellen.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Dit artikel introduceert een nieuw geometrisch raamwerk dat redeneren in grote taalmodellen beschrijft als vloeiende trajecten in representatieruimte, waarbij empirische bevindingen aantonen dat deze modellen logische invarianten als hogere-orde geometrie internaliseren, wat de "stochastische papegaai"-hypothese uitdaagt en wijst op een universeel representatief principe.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

Dit paper introduceert WeightLens en CircuitLens, twee methoden die de interpretatie van neurale netwerken verbeteren door direct van gewichten te leren en interacties tussen componenten te analyseren, waardoor de afhankelijkheid van externe modellen en datasets wordt verwijderd en schaalbare mechanische interpretatie mogelijk wordt.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Dit paper introduceert COGS, een data-efficiënt raamwerk dat pretrained multi-modale grote taalmodellen in staat stelt tot geavanceerd visueel redeneren in domeinen zoals grafieken en webpagina's door een kleine set zaadvragen te decomponeren en te hercombineren voor het synthetiseren van grote datasets met procesbeloningen.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

Dit paper introduceert EliCal, een tweestapsframework dat middels een kleine set correcte annotaties en goedkope zelf-consistentie-supervisie een schaalbare en annotatie-efficiënte oplossing biedt voor universele eerlijkheidsalignatie van grote taalmodellen, ondersteund door de nieuwe HonestyBench-benchmark.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Dit paper introduceert de CITECONTROL-benchmark en het CITENTION-framework om citatiefouten in RAG-systemen te analyseren en efficiënt te mitigeren door generatieve, attention-gebaseerde en retrieval-methoden te combineren.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Het paper introduceert REVISION, een nieuw raamwerk dat offline redenering en online besluitvorming combineert om de discrepantie tussen impliciete gebruikersintenties en zoekresultaten in Taobao's visuele zoeksystemen te verminderen en zo de klikratio te verhogen.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Deze paper introduceert MuSaG, het eerste meervoudig modale dataset voor sarcasmedetectie in het Duits, bestaande uit handmatig geannoteerde video-, audio- en tekstfragmenten uit televisieprogramma's, en analyseert de prestaties van diverse modellen om een kloof tussen menselijke en machine-interpretatie van audio-cues bloot te leggen.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Dit paper introduceert het Agent Data Protocol (ADP), een lichtgewicht representatietaal die verspreide agentdatasets standaardiseert, waardoor efficiënter fine-tuning mogelijk wordt met aanzienlijke prestatieverbeteringen op diverse taken zonder domeinspecifieke aanpassingen.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Dit paper introduceert CareMedEval, een nieuw dataset gebaseerd op Franse medische examens en wetenschappelijke artikelen om de kritische beoordeling en redeneringsvaardigheden van grote taalmodellen in de biomedische wetenschap te evalueren, waarbij blijkt dat zelfs geavanceerde modellen moeite hebben met het analyseren van studielimietaties en statistische analyses.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Deze studie introduceert HealthQuote.NL, een corpus van metaforen uit interviews en forums van Nederlandse kankerpatiënten, dat met behulp van grote taalmodellen en menselijke validatie is samengesteld om de zorgcommunicatie en besluitvorming te verbeteren.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Dit onderzoek toont aan dat appraisals, die de subjectieve cognitieve evaluatie van een argument weergeven, een betere voorspeller zijn van de overtuigingskracht dan categorische emoties.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Dit paper presenteert een multimodaal groot taalmodel voor het Baskisch dat, ondanks het gebruik van een niet-Baskisch aangepaste backbone, sterke prestaties levert met slechts een klein percentage Baskische multimodale trainingsdata en zo een weg vrijmaakt voor de ontwikkeling van dergelijke modellen voor andere taalarme talen.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Dit paper introduceert Dripper, een lichtgewicht framework dat hoofdinhoud van webpagina's efficiënt en nauwkeurig extraheert door middel van geconstrueerde sequentiemarkering met kleine taalmodellen, waardoor het de prestaties van zware generatieve modellen benadert met een veel lagere rekenkost.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

← Vorige Volgende →