cs.CL papers | Gist.Science

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Dit paper introduceert VeriTrail, de eerste methode voor het detecteren van hallucinaties in gesloten domeinen met traceerbaarheid, die niet alleen de einduitvoer controleert maar ook identificeert waar hallucinaties in meervoudige generatiestappen zijn ontstaan, en dit ondersteunt met nieuwe datasets en betere prestaties dan bestaande methoden.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Dit paper introduceert RedTeamCUA, een nieuw testframework met een hybride sandbox voor het realistisch evalueren van kwetsbaarheden voor indirecte prompt-injectie in computergebruiksagenten, en presenteert de RTC-Bench-benchmark die aantoont dat zelfs de meest geavanceerde agenten aanzienlijke veiligheidsrisico's vertonen in hybride web-OS-omgevingen.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Dit paper introduceert CityLens, een uitgebreid benchmark voor het evalueren van Large Vision-Language Models bij het voorspellen van stedelijke sociaaleconomische indicatoren op basis van satelliet- en straatbeeldbeelden uit 17 wereldsteden.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

In dit paper wordt OmniSpatial geïntroduceerd, een uitgebreid en uitdagend benchmark voor ruimtelijk redeneren bij vision-language modellen, gebaseerd op cognitieve psychologie met meer dan 8.4K handmatig geannoteerde vraag-antwoordparen die vier hoofdcategorieën bestrijken, terwijl experimenten de beperkingen van bestaande modellen aantonen en twee nieuwe strategieën voor verbetering voorstellen.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Deze paper introduceert Meta-Adaptive Prompt Distillation, een meta-leerbenadering die few-shot vermogens in Large Multimodal Models verbetert door taakrelevante visuele kenmerken te distilleren in aangepaste soft prompts, waardoor de prestaties op visuele vraagbeantwoordingstaken aanzienlijk stijgen ten opzichte van traditionele in-context learning en parameter-efficiënte finetuning.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

Dit paper introduceert VINCIE, een model dat in-context afbeeldingsbewerking leert door video's te gebruiken als schaalbare trainingsdata via een blokkauzale diffusietransformer, waardoor het zonder gespecialiseerde pipelines state-of-the-art resultaten bereikt op benchmarks voor meervoudige bewerkingen.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Dit artikel introduceert FAME, een framework dat de bijdrage van verschillende modaliteiten aan eerlijkheid weegt om via een gecombineerde verliesfunctie en de Error Distribution Disparity Index (EDDI) zowel de voorspellingsprestatie als de eerlijkheid van multimodale modellen voor elektronische gezondheidsrecords te optimaliseren.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Dit paper introduceert LA-CDM, een hypothesegedreven taalagent die met behulp van supervisie en versterkingslering klinische beslissingen optimaliseert door een interactief proces van testverzoeken en diagnosevorming, wat leidt tot verbeterde diagnostische prestaties en efficiëntie op de MIMIC-CDM dataset.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

AgentSynth introduceert een schaalbaar en kostenefficiënt proces voor het automatisch genereren van duizenden realistische computer-taken met variabele complexiteit, waarmee de beperkingen van huidige AI-agenten worden blootgelegd en een goedkoper alternatief voor menselijke annotatie wordt geboden.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

GenRecal is een algemeen distillatiekader dat kennis overdraagt van grote naar kleine vision-language modellen door middel van een recalibratiemodule die de verschillen in architectuur en tokenisatie tussen heterogene modellen overbrugt, waardoor kleinere modellen zelfs betere prestaties leveren dan grote gesloten systemen.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

Dit paper introduceert OJBench, een uitdagende benchmark met 232 competitieproblemen die aantoont dat zelfs de meest geavanceerde taalmodellen moeite hebben met het oplossen van complexe codeproblemen op olympiade-niveau.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Dit paper introduceert een theoretisch raamwerk voor het ontleden van fouten bij lange teksten in LLM's en toont aan dat het gebruik van chunking met meerdere agenten, zelfs met zwakkere modellen, superieur kan zijn aan single-shot verwerking door de negatieve impact van contextgrootte op modelnauwkeurigheid te beperken.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Dit paper introduceert LongWriter-Zero, een model dat via beloningsgebaseerd versterkingsleren (RL) zonder synthetische trainingsdata ultra-lange, hoogwaardige teksten genereert en hiermee de prestaties van traditionele SFT-methoden en zelfs grotere 100B+ modellen overtreft.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

In dit werk wordt TTSDS2, een robuustere en verbeterde versie van de TTSDS-metiek, geïntroduceerd als de enige van zestien metrics die consistent sterk correleert met subjectieve beoordelingen, vergezeld van een uitgebreid dataset met meer dan 11.000 ratings, een pipeline om datalekken te voorkomen en een voortdurend bijgewerkt benchmark voor TTS in 14 talen.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Hoewel Reinforcement Post Training (RPT) de redeneerprestaties van grote taalmodellen aanzienlijk verbetert op bekende taken, blijken deze winsten onvoorspelbaar te zijn en vaak te verdwijnen wanneer ze worden toegepast op onbekende domeinen met andere redeneerpatronen.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Dit onderzoek toont aan dat cognitieve modellen, oorspronkelijk ontwikkeld voor menselijk taalgebruik, effectief kunnen worden ingezet om waardebepalingen en afwegingen in taalmodellen systematisch te analyseren, waardoor inzichtelijk wordt hoe factoren zoals redeneerinspanning, prompts en trainingsfasen het gedrag en de waarden van deze modellen beïnvloeden.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

DAPFAM is een nieuw, publiek beschikbaar dataset voor het benchmarken van octrooiverwerving die een aanzienlijke prestatiedaling bij domeinoverschrijdende zoekopdrachten blootlegt en aantoont dat passage-niveau retrieval en Reciprocal Rank Fusion de meest effectieve strategieën zijn.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

Dit artikel introduceert XISM, een interactief systeem dat data-gedreven inferentie combineert met expertkennis om schaalbare en interpreteerbare semantische kaarten te construeren, waardoor de transparantie en controleerbaarheid van linguïstische beslissingen worden verbeterd.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

Het paper introduceert FrugalRAG, een tweestapsfinetuningframework dat Reinforcement Learning gebruikt om het aantal zoekstappen in multi-hop vraagbeantwoording adaptief te verminderen op basis van vraagmoeilijkheid, waardoor een superieure balans tussen nauwkeurigheid en efficiëntie wordt bereikt met slechts ongeveer 1.000 voorbeelden.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Dit paper introduceert SASFT, een methode die gebruikmaakt van sparse autoencoders om ongeplande taalmixing in grote taalmodellen effectief te verminderen door de pre-activatiewaarden van taalfuncties tijdens het finetunen te reguleren, zonder de multilinguale prestaties te schaden.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

← Vorige Volgende →