cs.CL papers | Gist.Science

OSCAR: Online Soft Compression And Reranking

OSCAR is een nieuwe online zachte compressie- en herordeningstechniek die de rekentijd van Retrieval-Augmented Generation-pipelines aanzienlijk verkort zonder in te leveren op de nauwkeurigheid, door dynamisch en query-afhankelijk informatie te comprimeren tijdens de inferentie.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

Dit artikel introduceert een nieuw interactiegericht dataset en een verfijningsprocedure die Multimodale Grootte Taalmodellen gebruikt om de generatie van afbeeldingen met complexe objectinteracties te verbeteren door prompts te ontleden, afbeeldingen te evalueren en gerichte aanpassingen toe te passen.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

Dit artikel introduceert N2M-RSI, een formeel model dat aantoont dat een AI-agent die zijn eigen output als trainingsdata gebruikt, na het overschrijden van een drempel voor informatieverwerking onbeperkt in complexiteit kan groeien, met potentieel superlineaire effecten in agent-zwermen.

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Dit artikel introduceert PubHealthBench, een nieuwe benchmark met meer dan 8000 vragen gebaseerd op Britse overheidsrichtlijnen om de kennis van LLMs op het gebied van volksgezondheid te evalueren, waarbij wordt geconstateerd dat hoewel de nieuwste modellen bij meerkeuzevragen menselijke prestaties overtreffen, hun prestaties bij open antwoorden beperkter blijven en aanvullende veiligheidsmaatregelen vereisen.

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Dit paper introduceert MoB, een methode voor visuele token-pruning die het inherente compromis tussen prompt-uitlijning en visuele behoud oplost door het probleem te herformuleren als een bi-objectief overdekkingsprobleem, wat leidt tot aanzienlijke versnelling van multimodale modellen met minimaal prestatieverlies.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Het artikel introduceert R1-Code-Interpreter, een model dat door middel van multi-stage versterkingslering en curriculum learning is getraind om code interpreter autonoom in te zetten voor diverse redeneertaken, waarbij het prestaties van GPT-4o overtreft en emergente zelfcontrole gedrag vertoont.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Deze paper introduceert Supervised Calibration (SC), een unificerend framework dat de beperkingen van bestaande kalibratiemethoden voor In-Context Learning in LLMs overwint door het leren van optimale affiene transformaties in de logit-ruimte, waardoor de beslissingsgrenzen effectief kunnen worden aangepast en de prestaties aanzienlijk worden verbeterd.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

Deze studie analyseert hoe voorkeurmodellen voor taalmodellen systematisch worden beïnvloed door oppervlakkige kenmerken zoals lengte en stijl in plaats van inhoudelijke kwaliteit, en stelt een effectieve post-training-methode voor op basis van contrafactuele data-augmentatie om deze vertekeningen te verminderen en de betrouwbaarheid van de evaluaties te vergroten.

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

Dit paper introduceert CounselBench, een grootschalig benchmarkkader ontwikkeld met 100 mentale gezondheidsprofessionals om grote taalmodellen te evalueren op hun vermogen om veilige, klinisch onderbouwde en contextueel gevoelige antwoorden te geven op open vragen over mentale gezondheid, waarbij zowel de beperkingen van bestaande modellen als de systematische onderschatting van veiligheidsrisico's door AI-jurissen worden blootgelegd.

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

Deze paper introduceert 'Internal Confidence', een trainingsvrije methode die de onzekerheid van een groot taalmodel op query-niveau schat voordat er tokens worden gegenereerd, waardoor de kosten van adaptieve inferentie zoals RAG en modelcascading worden verlaagd zonder de prestaties te schaden.

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

Dit artikel introduceert een methode voor contextbiasing die gebruikmaakt van correcties op vervangingsfouten tijdens inferentie om de herkenning van woorden met een mismatch tussen uitspraak en spelling te verbeteren, wat resulteert in een significante vermindering van de woordfouten voor deze specifieke termen zonder de algehele prestaties te beïnvloeden.

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Dit paper introduceert RLVER, een nieuw reinforcement learning-framework dat verifieerbare emotiebeloningen van gesimuleerde gebruikers gebruikt om de empathische vaardigheden van taalmodellen aanzienlijk te verbeteren zonder hun cognitieve competenties te verliezen.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Dit paper introduceert UQLM, een Python-pakket dat state-of-the-art onzekerheidskwantificatietechnieken gebruikt om hallucinaties in grote taalmodellen te detecteren en zo de betrouwbaarheid van hun output te vergroten.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Deze studie toont aan dat het toepassen van coreferentieoplossing de prestaties van Retrieval-Augmented Generation-systemen verbetert, met name door de meerwaarde voor kleinere modellen en de superieure contextopname bij gebruik van mean pooling.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Deze studie onthult dat grote taalmodellen nieuwe taken leren via in-context learning door een mechanisme genaamd 'functie-inductie' te gebruiken, waarbij meerdere attention heads parallel werken om abstracte functies zoals een 'off-by-one' optelling te generaliseren en te hergebruiken in diverse andere taken.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification

Dit paper introduceert het eerste uitgebreide meerlingual benchmark voor de evaluatie van tekstontsmetting in negen talen en toont aan dat voorgestelde metrics, waaronder LLM-as-a-judge-approaches, een aanzienlijk sterkere correlatie met menselijke beoordelingen vertonen dan bestaande methoden.

Vitaly Protasov, Nikolay Babakov, Daryna Dementieva + 1 more2026-03-05💬 cs.CL

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Dit paper introduceert Text2VLM, een innovatieve pipeline die tekst-only datasets omzet naar multimodale formaten om de kwetsbaarheid van Visuele Taalmodellen voor typografische prompt-injectie-aanvallen te evalueren en zo de veilige implementatie van deze modellen te bevorderen.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

Dit paper introduceert WebDS, het eerste end-to-end benchmark voor webgebaseerde datawetenschap dat agenten test op complexe, multi-stap taken over diverse websites en een aanzienlijke prestatiekloof tussen huidige LLM-agenten en menselijke vaardigheden blootlegt.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

SEVADE: Self-Evolving Multi-Agent Analysis with Decoupled Evaluation for Hallucination-Resistant Irony Detection

Dit paper introduceert SEVADE, een zelfevoluerend multi-agent framework met ontkoppelde evaluatie dat hallucinaties vermindert en state-of-the-art prestaties bereikt bij de detectie van sarcasme door middel van een dynamische agentieve redeneermotor en een gescheiden rationele adjudicator.

Ziqi Liu, Ziyang Zhou, Yilin Li + 4 more2026-03-05💬 cs.CL

ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

Dit paper introduceert ObfusQAte, een nieuw raamwerk met de ObfusQA-benchmark om de kwetsbaarheid van grote taalmodellen voor hallucinaties en falen te evalueren wanneer ze geconfronteerd worden met verduisterde feitelijke vragen.

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru + 1 more2026-03-05🤖 cs.AI

← Vorige Volgende →