cs.CL papers | Gist.Science

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Dit paper introduceert CTRL-RAG, een nieuw hybride beloningssysteem dat gebruikmaakt van een contrastieve waarschijnlijkheidsbeloning om hallucinaties te verminderen en de contextgetrouwheid van Retrieval-Augmented Generation-modellen te verbeteren door de log-waarschijnlijkheidskloof tussen antwoorden met en zonder bewijsmateriaal te optimaliseren.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Deze studie toont aan dat semantische triggers op zichzelf, zelfs zonder mengsel van schadelijke en onschadelijke trainingsdata, leiden tot emergente misalignatie die zich beperkt tot specifieke contexten, waardoor kwetsbaarheden ontstaan die onzichtbaar blijven voor standaard evaluaties.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Dit paper introduceert het 'Probing Memes'-paradigma, dat large language models en datasets als een verweven geheel beschouwt via een perceptiematrix om gedetailleerde interacties en populatieniveau-eigenschappen te analyseren die door traditionele evaluatiemethoden worden gemist.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Dit paper introduceert HUMAINE, een demografisch bewust evaluatiekader dat op basis van gesprekken met ruim 23.000 deelnemers aantoont dat de voorkeur voor grote taalmodellen sterk varieert per leeftijdsgroep en dat traditionele benchmarks vaak de complexiteit van menselijke evaluatie missen.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Dit paper introduceert SalamahBench, een gestandaardiseerd veiligheidsbenchmark voor Arabische taalmodellen bestaande uit 8.170 prompts in 12 categorieën, waarmee wordt aangetoond dat bestaande Arabische modellen aanzienlijke veiligheidskwetsbaarheden vertonen en dat gespecialiseerde bewakingsmodellen superieur zijn aan native modellen voor het detecteren van schadelijke inhoud.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Dit paper introduceert DynaKV, een post-training framework dat de KV-cache van grote taalmodellen efficiënt comprimeert door compressiepercentages dynamisch per token aan te passen op basis van hun semantische betekenis, waardoor aanzienlijke geheugenbesparingen worden bereikt zonder significante kwaliteitsverlies.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Dit artikel introduceert een theoretisch haalbare benadering van de dynamiek van grote taalmodellen via additieve multi-stap Markov-ketens, waarbij de equivalentie met een keten met stapsgewijze geheugenfunctie wordt vastgesteld om het concept van informatietemperatuur uit te breiden en de dimensieproblematiek te mitigeren.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Dit artikel introduceert de Inductive Conceptual Rating (ICR)-metriek, een kwalitatieve semiotisch-hermeneutische benadering die aantoont dat hoewel LLM's hoge taalkundige overeenkomsten vertonen, ze vaak tekortschieten in het vangen van contextueel betekenisvolle menselijke interpretaties in samenvattingen.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Dit artikel introduceert RoBERTa-OTA, een nieuw model dat RoBERTa-embeddings combineert met een ontologie-gestuurde attentie-mechanisme en Graph Convolutional Networks om de nauwkeurigheid van multiclass hate speech-detectie over verschillende demografische categorieën aanzienlijk te verbeteren met slechts een minimale toename in parametergrootte.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Dit paper introduceert het Dual Tuning-framework om de 'Denk-Grens' te kwantificeren, waarmee wordt bepaald wanneer redenering nuttig is voor multimodale taken en zo de inefficiënte 'redeneren-voor-alles'-benadering wordt uitgedaagd ten gunste van adaptieve, resource-efficiënte systemen.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Dit artikel introduceert een betrouwbaarheidsbewust raamwerk voor zwak toezicht dat een multi-agent LLM-pijplijn combineert met QUBO-gebaseerde selectie om robuuste, gebalanceerde datasets voor Arabische sentimentanalyse te creëren.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Deze studie toont aan dat grote taalmodellen als beoordelaars onbetrouwbaar zijn voor productieomgevingen, omdat ze bij identieke invoer aanzienlijk verschillende scores kunnen toekennen afhankelijk van het model, de temperatuurinstelling en de interpretatiestijl.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Deze studie toont aan dat Vision-Language-modellen contextafhankelijke affordances berekenen, waarbij zowel de woordkeuze als de semantische betekenis sterk variëren afhankelijk van de context, wat wijst op de noodzaak van dynamische, query-afhankelijke ontologische projectie in de robotica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Dit onderzoek toont aan dat multi-agent systemen voor klinische diagnose, waarin agents van verschillende leveranciers samenwerken, superieure resultaten behalen dan homogene teams door het combineren van complementaire inductieve biases en het verminderen van gedeelde foutpatronen.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Deze studie introduceert een compliance-bewuste Self-Instruct-methode, gecombineerd met LoRA-finetuning en een strikt verificatieproces, om realistische en protocolconforme maritieme radio-dialogen te genereren die het gebrek aan hoogwaardige data voor AI-ondersteunde veiligheidssystemen oplossen.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Dit paper introduceert het 'What Is Missing' (WIM) ratingsysteem, dat interpreteerbare voorkeurslabels genereert door de cosine-ähnelijkheid tussen modeluitvoer en tekstuele feedback over ontbrekende informatie te berekenen, waardoor een robuuster leersignaal ontstaat dan bij traditionele numerieke ratings.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Dit overzichtspaper analyseert geavanceerde methoden voor dynamische routering en cascading tussen meerdere onafhankelijke grote taalmodellen om de inferentie-efficiëntie te maximaliseren door query-gebaseerde modelselectie, en presenteert een conceptueel raamwerk om deze systemen te classificeren en de afwegingen tussen kosten en prestaties te optimaliseren.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet is een open infrastructuur die AI-vaardigheden systematisch creëert, evalueert en koppelt via een uniek ontologie, waardoor agenten hun prestaties aanzienlijk verbeteren door herhaling van oplossingen te voorkomen en eerder verworven kennis effectief te benutten.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Deze studie introduceert een unificerend raamwerk voor het injecteren van kennis en evalueren van grote taalmodellen in de verbrandingswetenschap, waarbij wordt aangetoond dat een gestructureerde aanpak met kennisgrafieken en voortgezette pretraining noodzakelijk is om de beperkingen van standaard retrieval-augmented generation te overwinnen.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Dit artikel introduceert een nieuwe aanvalsmethode op multimodale grote taalmodellen die door het maximaliseren van numerieke instabiliteit tijdens de inferentie aanzienlijke prestatieverminderingen veroorzaakt, zelfs bij minimale beeldwijzigingen die door traditionele adversariële perturbaties niet worden gedekt.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

← Vorige Volgende →