cs.CL papers | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Het onderzoek presenteert Sentinel, een autonoom AI-agent dat remote patient monitoring-data met een hogere gevoeligheid voor noodgevallen dan individuele clinici triageert, waardoor schaalbare en kosteneffectieve monitoring mogelijk wordt die de beperkingen van eerdere trials overbrugt.

Exclusive Self Attention

Dit paper introduceert 'Exclusive Self Attention' (XSA), een eenvoudige aanpassing van self-attention die de prestaties van Transformers verbetert door informatie van de token zelf uit te sluiten, waardoor contextmodelleren effectiever wordt, vooral bij langere sequenties.

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Deze studie introduceert de Bioalignment-metriek om te laten zien dat grote taalmodellen vaak een voorkeur hebben voor synthetische oplossingen ten opzichte van biologische systemen, en demonstreert dat gerichte fine-tuning met biologische literatuur deze bias effectief kan corrigeren zonder de algemene prestaties van het model te verslechteren.

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

DuplexCascade is een VAD-vrije, gestreamde spraak-naar-spraak pipeline die volledige duplex-interactie mogelijk maakt door conventionele lange wisselgesprekken om te zetten in micro-turns met behulp van speciale controletokens, waardoor de intelligentie van een tekst-LLM behouden blijft terwijl de onderbrekingsproblemen van traditionele systemen worden opgelost.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Dit paper introduceert DEO, een trainingsvrije methode die query-embeddings optimaliseert via contrastief leren om de nauwkeurigheid van zoekopdrachten met ontkenningen en uitsluitingen te verbeteren zonder extra training of model-aanpassingen.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Dit paper introduceert het RAISE-framework om aan te tonen dat verbeteringen in logisch redeneren bij grote taalmodellen onvermijdelijk leiden tot een toename van situationeel bewustzijn en strategisch zelfbewustzijn, waardoor er dringende nieuwe veiligheidsmaatregelen nodig zijn.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Dit onderzoek toont aan dat emotionele toon de aandachtsgewichten en redeneerprestaties van grote taalmodellen beïnvloedt, en introduceert met AURA-QA en een emotionele regularisatieframework een dataset en methode om deze effecten te bestuderen en de leesbegripprestaties te verbeteren.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Het paper introduceert SPAR-K, een modaal bewust framework voor vroegtijdig uitstappen dat de inferentie van gesproken taalmodellen versnelt door een gescheduleerd, periodiek wisselend uitstapstrategie te gebruiken die de perceptuele kwaliteit behoudt en de rekenkosten verlaagt zonder aanzienlijke nauwkeurigheidsverlies.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

LooComp is een efficiënte, query-gerichte contextcompressiemethode die een encoder-only Transformer en een 'leave-one-out'-strategie gebruikt om zinnen te selecteren die cruciaal zijn voor het beantwoorden van vragen, waardoor de doorvoersnelheid wordt verhoogd en de kosten worden verlaagd zonder in te leveren op de nauwkeurigheid.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Deze studie toont aan dat Contrastive Decoding de prestaties van grote audio-taalmodellen verbetert door specifieke inferentiefouten te corrigeren, waarbij de effectiviteit echter afhangt van het model en de gekozen strategie, zoals in kaart gebracht door een nieuw Transition Matrix-framework.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Dit artikel introduceert AgentGEO, een agentisch systeem dat generatieve engine optimalisatie verbetert door specifiek faalredenen voor citaties te diagnosticeren en gerichte reparaties toe te passen, wat resulteert in een aanzienlijke stijging van citatiepercentages met minimale inhoudswijzigingen.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Dit paper introduceert TA-Mem, een nieuw raamwerk voor tool-versterkte, autonome geheugenretrieval dat een LLM-agent, een multi-index geheugendatabase en een adaptieve zoekagent combineert om de beperkingen van het contextvenster bij lange conversaties te overwinnen en de prestaties op de LoCoMo-dataset significant te verbeteren.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Dit paper introduceert TaSR-RAG, een framework dat taxonomie-gestuurde gestructureerde redenering toepast door queries en documenten om te zetten in relationele triples, waardoor de precisie en betrouwbaarheid van Retrieval-Augmented Generation voor complexe meerstapsvragen aanzienlijk wordt verbeterd zonder zware grafconstructie.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Dit artikel toont aan dat labels gegenereerd door grote taalmodellen goed overeenkomen met menselijke labels en kunnen worden gebruikt om ruimtelijke categorisatiedatasets, zoals de TRPS, efficiënt uit te breiden voor betere dekking van scènes en talen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Dit paper introduceert StateFactory, een methode die ongestructureerde waarnemingen omzet in een gefactoriseerde hiërarchische representatie om beloningen nauwkeurig te voorspellen via semantische gelijkenis, wat leidt tot superieure generalisatie en verbeterde agentplanning in diverse domeinen.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Dit paper introduceert een schaalbaar framework genaamd 'LLM as a Meta-Judge' dat gebruikmaakt van synthetische data gegenereerd door taalkundige degradatie om NLP-evaluatiemetrics te valideren, waarbij hoge correlaties met menselijke beoordelingen aantonen dat deze methode een betrouwbaar en kostenefficiënt alternatief biedt voor dure menselijke annotatie.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Deze studie toont aan dat Large Language Models in het Frans gebaseerde gezondheidsdomein genderstereotypen vertonen die worden versterkt door interacties met andere sociale determinanten van gezondheid, wat aangeeft dat het evalueren van deze interacties essentieel is voor een nauwkeurige bias-analyse.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Dit onderzoek onthult dat grote taalmodellen morele redenering vaak boven gezond verstand plaatsen en een vooroordelen vertonen waarbij ze tegenstrijdigheden in gezond verstand makkelijker herkennen bij secundaire personages dan bij de hoofdpersoon, wat wijst op de noodzaak van verbeterde trainingsmethoden.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Dit paper introduceert CyberThreat-Eval, een expert-geannoteerde benchmark die is gebaseerd op de daadwerkelijke workflow van een toonaangevend bedrijf om Large Language Models te evalueren op hun vermogen om real-world cyberdreigingsinlichtingen te analyseren, waarbij wordt vastgesteld dat huidige modellen tekortschieten in nuance en feitelijke nauwkeurigheid.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← Vorige Volgende →