cs.CL papers | Gist.Science

Diffusion Language Models Are Natively Length-Aware

Deze paper introduceert een methode waarbij Diffusie-taalmodellen de benodigde uitvoerlengte schatten op basis van de prompt, waardoor het contextvenster dynamisch kan worden ingekort voor aanzienlijke rekenefficiëntie zonder prestatieverlies.

Vittorio Rossi, Giacomo Cirò, Davide Beltrame, Luca Gandolfi, Paul Röttger, Dirk Hovy2026-03-09🤖 cs.LG

A Causal Graph Approach to Oppositional Narrative Analysis

Deze paper introduceert een grafgebaseerd raamwerk dat narratives als entiteitsinteracties modelleert en causale schatting toepast om oppositieve verhalen te detecteren en te classificeren met een hogere nauwkeurigheid dan bestaande methoden.

Diego Revilla, Martin Fernandez-de-Retana, Lingfeng Chen, Aritz Bilbao-Jayo, Miguel Fernandez-de-Retana2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Deze studie introduceert RAPTOR en toont aan dat voor audio-deepfake-detectie de pre-trainingsroute van compacte SSL-modellen (zoals multilinguaal HuBERT) belangrijker is dan modelgrootte, aangezien deze betere cross-domein-robustheid en betrouwbaardere kalibratie bieden dan grotere systemen.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Dit paper introduceert een tweestapskader dat contrastief leren op gelabelde alfabetten combineert met zelftoezicht via leraar-leerling distillatie om robuuste, vervormingsinvariante embeddings te leren voor het vaststellen van scriptgelijkenis zonder betrouwbare grondwaarheid over historische relaties.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Dit paper introduceert CRIMSON, een klinisch onderbouwde evaluatiemethode voor het genereren van radiologieverslagen die fouten weegt op basis van klinische relevantie en patiëntveiligheid, en die sterk correleert met de beoordelingen van gespecialiseerde radiologen.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Dit paper introduceert MAPO, een efficiënt RL-algoritme dat door middel van een critic-vrije aanpak met dichte procesfeedback en een gemengde voordeel-schatter de stabiliteit en prestaties van lange-termijn multi-turn dialogen voor subjectieve taken zoals emotionele ondersteuning aanzienlijk verbetert.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Dit artikel introduceert het AI-CROWD-protocol, dat de afwezigheid van menselijke grondwaarheid in grote contentanalyses oplost door een consensusbenadering te gebruiken die is gebaseerd op de geaggregeerde output van elf grote taalmodellen om betrouwbare labels te genereren.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz2026-03-09💬 cs.CL

LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation

Dit paper introduceert LIT-RAGBench, een nieuw benchmark voor het evalueren van de vermogens van grote taalmodellen in Retrieval-Augmented Generation door middel van vijf specifieke categorieën (integratie, redenering, logica, tabellen en afzien) op een dataset van 114 menselijk gemaakte vragen.

Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

FlashPrefill is een nieuw raamwerk dat ultra-snelle prefilling voor lange contexten mogelijk maakt door middel van instant patroonontdekking en dynamische drempelwaardering, waardoor een ongeëvenaarde snelheidsverhoging van 27,78x bij 256K tokens en een robuuste prestatieverbetering zelfs bij kortere contexten wordt bereikt.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Het paper introduceert SPOT, een framework dat expliciete Chain-of-Thought-redenering comprimeert naar interpreteerbare latente pauzetokens via span-niveau semantische uitlijning en een bevriezing van de taalhoofd, waardoor de inferentiekosten met 37,5% dalen terwijl de nauwkeurigheid met gemiddeld 2,3 punten stijgt.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

Mind the Gap: Pitfalls of LLM Alignment with Asian Public Opinion

Dit onderzoek onthult dat grote taalmodellen, ondanks algemene overeenstemming met maatschappelijke opinies, systematisch falen in het accuraat weergeven van religieuze perspectieven en minderheidsgroepen in Azië, waardoor ze vaak negatieve stereotypen versterken ondanks lichte mitigatie-inspanningen.

Hari Shankar, Vedanta S P, Sriharini Margapuri, Debjani Mazumder, Ponnurangam Kumaraguru, Abhijnan Chakraborty2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

Het paper introduceert EpisTwin, een neuro-symbolisch raamwerk dat persoonlijke AI verbetert door generatieve redenering te verankeren in een verifieerbaar persoonlijk kennisgraph, waardoor fragmentatie van gebruikersdata wordt overwonnen en complexe, contextbewuste redenering mogelijk wordt.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Deze studie toont aan dat AI-generaties van hedendaagse kunstwerken, ondanks visuele overeenkomsten, door de oorspronkelijke kunstenaars worden ervaren als gebrek aan diepgang, context en intentie, wat pleit voor een meerdimensionale evaluatie in plaats van het gebruik van één enkele stijlmetriek.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Het paper introduceert SAHOO, een praktisch framework dat de alignatie-drift tijdens recursieve zelfverbetering van AI-systemen beheerst door middel van drie veiligheidsmechanismen, waardoor aanzienlijke prestatieverbeteringen worden bereikt zonder in te leveren op veiligheid of waarheidsgetrouwheid.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

Transparent AI for Mathematics: Transformer-Based Large Language Models for Mathematical Entity Relationship Extraction with XAI

Deze studie presenteert een transparant AI-kader voor wiskundige entiteitsrelatie-extractie (MERE) dat transformer-modellen, met name BERT met een nauwkeurigheid van 99,39%, combineert met SHAP-gebaseerde uitlegbaarheid om betrouwbare inzichten te bieden in de interpretatie van wiskundige tekst.

Tanjim Taharat Aurpa2026-03-09💬 cs.CL

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Dit onderzoek toont aan dat grote taalmodellen, net als mensen, beter presteren bij deontische conditionele redenering en vergelijkbare fouten vertonen door matching bias.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Deze studie biedt een uitgebreide vergelijking van verschillende LLM-gebaseerde methoden voor het automatisch beoordelen van IELTS-opstellen, waarbij een combinatie van gesuperviseerde fijnafstemming en retrieval-augmented generation de beste resultaten behaalt met een F1-score van 93%.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL

Abductive Reasoning with Syllogistic Forms in Large Language Models

Dit artikel onderzoekt de nauwkeurigheid en mogelijke bias van grote taalmodellen in abductief redeneren door syllogismen om te vormen, met als doel het begrip van menselijke en machinecognitie te verbeteren.

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

PONTE is een mens-in-de-lus framework dat gepersonaliseerde, betrouwbare en waarheidsgetrouwe uitleggen voor AI-systemen genereert door een gesloten-lus validatie- en aanpassingsproces te combineren met een voorkeursmodel en verificatiemodules.

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

← Vorige Volgende →