cs.CL papers | Gist.Science

TransactionGPT

Dit paper introduceert TransactionGPT, een fundamenteel model op basis van een innovatieve 3D-Transformer-architectuur dat is getraind op miljarden transacties en superieure prestaties levert bij het detecteren van anomalieën en het genereren van toekomstige transacties vergeleken met bestaande methoden en aangepaste LLM's.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Dit paper toont aan dat gerichte activatie-engineering, gebaseerd op attributiepatching en contrastieve emotievectoren, LLaMA 3.1-8B in staat stelt om menselijker emotionele nuances en persoonlijke betrokkenheid te vertonen in onderhandelingen.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Dit paper introduceert het Confidence-Aware Fine-Grained Debate (CFD)-framework, dat gebruikmaakt van open-source LLM's voor geautomatiseerde data-verrijking via een debatmechanisme, wat leidt tot significante verbeteringen in downstream-taken voor mentale gezondheid en online veiligheid.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Dit paper introduceert GUMBridge, een nieuw corpus met gedetailleerde annotaties voor verschillende soorten brug-anafora in zestien diverse Engelse genres, en toont aan dat zowel het oplossen van deze anafora als het classificeren van hun subtypen ook in het tijdperk van grote taalmodellen uitdagende NLP-taken blijven.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Deze studie introduceert een effectieve activatiestuuringsmethode voor Masked Diffusion Language Models die, door het toepassen van een enkele laagdimensionale richting op de residual-stream-activaties tijdens het reverse diffusion-proces, systematische gedragsveranderingen mogelijk maakt zonder optimalisatie, waarbij specifieke kenmerken zoals de bruikbaarheid van pre-instructie-tokens en cross-linguale transfer worden aangetoond die uniek zijn voor deze architectuur.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Dit artikel introduceert "Entropy Sentinel", een methode die het gebruik van afleidingsentropie-profielen van LLM-antwoorden combineert met een lichtgewicht classifier om slice-accuraatheid te schatten onder domeinverschuivingen, waarmee zowel continue monitoring als gerichte data-acquisitie in STEM-domeinen mogelijk wordt gemaakt.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Het onderzoek toont aan dat 'contextuele sleepkracht' (contextual drag) ervoor zorgt dat fouten in de context van grote taalmodellen leiden tot structureel vergelijkbare herhalingen van fouten, waardoor iteratieve zelfverbetering vaak resulteert in verslechtering in plaats van vooruitgang.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Dit paper introduceert het PACIFIC-dataset en een framework dat de prestaties van gepersonaliseerde antwoorden van grote taalmodellen aanzienlijk verbetert door voorkeuren te selecteren die consistent zijn met de afgeleide persoonlijkheidstrekken van de gebruiker.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Het paper introduceert Steer2Edit, een trainingsvrij raamwerk dat activatiesturing omzet in component-specifieke gewichtseditie om de afweging tussen attributen en bruikbaarheid in grote taalmodellen te verbeteren door selectieve aanpassingen aan te brengen in individuele attention heads en MLP-neuronen.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Het artikel introduceert MedXIAOHE, een geavanceerd medisch vision-language foundation model dat door middel van een entiteitsbewuste voortdurende voortraining, versterkt leren en tool-gebaseerde agent-training state-of-the-art prestaties bereikt in medisch redeneren en diagnosestelling.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Deze studie weerlegt eerdere twijfels over de nuttigheid van grote taalmodellen voor tijdreeksvoorspelling door middel van een grootschalige analyse te tonen dat ze, vooral bij domeinoverschrijdende generalisatie en onder complexe verdelingen, de prestaties aanzienlijk verbeteren en onmisbaar blijken te zijn.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Dit paper introduceert een trainingsvrije methode om hallucinaties in grote taalmodellen te detecteren door het softmax-classificatieproces te interpreteren als een Energy-Based Model en afwijkingen in 'uitgestorte energie' te analyseren.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Dit paper introduceert CFE-Bench, een multimodaal benchmark voor het evalueren van redeneervermogen van grote taalmodellen in meer dan 20 STEM-domeinen, waarbij wordt vastgesteld dat zelfs geavanceerde modellen moeite hebben met het consistent handhaven van correcte tussenstappen in complexe, meerstapsoplossingen.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Dit paper introduceert RuCL, een nieuw kader voor curriculum learning dat door gespecialiseerde, gestratificeerde rubrieken te gebruiken in plaats van alleen uitkomstsupervisie, de redeneerprestaties van multimodale grote taalmodellen aanzienlijk verbetert en een nieuwe state-of-the-art nauwkeurigheid bereikt.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Deze paper introduceert een schaalbaar Speech-guided Machine Translation (SMT)-framework dat spraak en tekst fuseert in een meertalig multimodaal groot taalmodel, ondersteund door een zelf-evolutiemechanisme voor synthetische data, en dat nieuwe state-of-the-art resultaten bereikt op multimodale en algemene vertaaltaken.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

Dit paper introduceert DeepXiv-SDK, een drie-laags agentic data-interface die ongestructureerde wetenschappelijke literatuur omzet in gestructureerde JSON-data en via diverse tools (zoals CLI, MCP en Python SDK) efficiëntere, kosteneffectieve toegang biedt voor AI-agenten tot het volledige ArXiv-corpus en toekomstige open-access bronnen.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Dit paper introduceert "Super Research", een nieuwe taak en benchmark die grote taalmodellen test op hun vermogen om uiterst complexe vragen op te lossen door middel van geavanceerde planning, superbrede en superdiepe zoekopdrachten, en een grondige evaluatie via een grafiekgebaseerd auditprotocol.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Deze paper introduceert uCDCR, een gestandaardiseerd en verenigd datasetkader voor cross-document coreferentieoplossing dat zowel entiteiten als gebeurtenissen omvat, bestaande corpora analyseert om generaliseerbaarheid te verbeteren, en aantoont dat het oplossen van beide coreferentietypen even complex is.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Het artikel introduceert QIME, een raamwerk dat interpreteerbare medische tekstembeddings genereert door ontologie-gedreven ja/nee-vragen te gebruiken, waardoor de prestaties van zwarte-doosmodellen worden benaderd terwijl klinisch inzicht behouden blijft.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Deze paper introduceert ClinConsensus, een door klinische experts gevalideerde benchmark in het Chinees die grote taalmodellen evalueert op basis van open-ended medische casuïstiek met variërende moeilijkheidsgraden, en een nieuw beoordelingskader voorstelt om de betrouwbaarheid en klinische toepasbaarheid van deze modellen in realistische zorgscenario's te meten.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

← Vorige Volgende →