cs.CL papers | Gist.Science

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Dit onderzoek onthult dat grote taalmodellen, ondanks hun vaardigheid in het genereren van antwoorden, aanzienlijk minder goed presteren bij het beoordelen van deze antwoorden, wat wijst op een fundamenteel paradox en de noodzaak om de betrouwbaarheid van dergelijke evaluaties te betwijfelen.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Dit artikel introduceert het gebruik van ChatGPT voor sentimentanalyse van citaten in wetenschappelijke artikelen om de ontvangst van werken te beoordelen en potentiële biases en belangenconflicten op te sporen.

Walid Hariri2026-03-09💬 cs.CL

Transforming Agency. On the mode of existence of Large Language Models

Dit artikel concludeert dat grote taalmodellen zoals ChatGPT geen autonome agenten zijn volgens belichaamde theorieën van de geest, maar eerder 'spookachtige' gesprekspartners die, ondanks hun gebrek aan eigen doelen en lichamelijkheid, wel degelijk nieuwe vormen van menselijke agency transformeren door een unieke koppeling met de gebruiker.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Deze studie concludeert dat gangbare bias-metrics onbetrouwbaar zijn voor het opsporen van allocatieschade bij grote taalmodellen, omdat ze het verschil tussen voorspellingen en de daaruit voortvloeiende beslissingen over de toewijzing van beperkte middelen negeren.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

Goldfish: Monolingual Language Models for 350 Languages

Het paper introduceert Goldfish, een verzameling van meer dan 1.000 kleine monolinguale taalmodellen voor 350 talen die, ondanks hun beperkte grootte en data, betere prestaties laten zien dan grote meertalige modellen op het gebied van grammatica en perplexiteit, en voor 215 van deze talen de eerste publiek beschikbare monolinguale modellen vormen.

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Dit paper introduceert een rekenkundig efficiënt en interpreteerbaar framework dat kleine, vooroordeel-gebaseerde en anti-vooroordeel-expertmodellen gebruikt om tijdens het decoderen een debiasings-signaal toe te voegen aan de output van grote taalmodellen, waardoor vooroordelen op basis van geslacht, ras en religie worden verminderd zonder de prestaties te schaden.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

Het paper introduceert SpecEM, een trainingsvrij ensemble-framework voor grote taalmodellen dat door segmentvoorspelling en dynamische, op prestaties gebaseerde weging de samenwerking tussen modellen verbetert en zo superieure resultaten behaalt ten opzichte van bestaande methoden.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Dit paper introduceert LEO, een efficiënt architectuurontwerp dat een gestructureerde mix van visuele encoders combineert met een lichtgewicht fusiestrategie om multimodale taalmodellen te verbeteren voor diverse visuele taken en domeinen zoals autonoom rijden.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Deze survey biedt een gestructureerd overzicht van hoe grote multimodale taalmodellen het wetenschappelijke proces transformeren door onderzoekers te ondersteunen bij literatuuronderzoek, het genereren van ideeën, experimenten, contentcreatie en evaluatie, terwijl het ook de methoden, beperkingen en ethische risico's van deze AI-gestuurde ontdekkingen belicht.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Dit onderzoek toont aan dat het fine-tunen van grote taalmodellen op een parallelle corpus, gegenereerd door back-vertaling van natuurlijke code-switching-zinnen, leidt tot vloeiende Spaans-Engelse code-switching-teksten, waarbij LLM-gebaseerde beoordeling beter overeenkomt met menselijke voorkeuren dan traditionele metrieken.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

Dit paper introduceert CAReDiO, een innovatief framework voor data-optimalisatie dat culturele representativiteit en distinctiviteit verbetert door informatie-theoretische doelen te combineren, waardoor Large Language Models met slechts 200 voorbeelden effectief kunnen worden afgestemd op diverse culturen.

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

Het artikel introduceert RM-R1, een nieuwe klasse van generatieve beloningsmodellen die beloningsmodellering omvormt tot een redeneertaak via een keten van rubrieken en een twee-staps trainingsproces, waardoor ze zowel interpreteerbaarder zijn als betere prestaties leveren dan bestaande modellen.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Dit artikel introduceert EVA, een nieuw asynchroon tot synchroon (A2S) framework dat door inspiratie uit taalmodellen event-gebaseerde visie verbetert en state-of-the-art prestaties behaalt op zowel herkennings- als detectietaken.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Dit onderzoek toont aan dat het gebruik van fine-grained conditionele activatiesturing, met name via de nieuwe K-CAST-methode, de redeneervertrekken in grote taalmodellen effectief kan verminderen door plausibiliteit van inhoud te scheiden van formele geldigheid, wat leidt tot een aanzienlijke verbetering in de nauwkeurigheid van logisch redeneren.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Dit paper introduceert AdAEM, een adaptief en zelfuitbreidend algoritme dat automatisch gecontesteerde testvragen genereert door de interne waarden Grenzen van diverse taalmodellen te onderzoeken, waardoor onderscheidend inzicht in hun waardenverschillen en uitlijning mogelijk wordt.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Dit paper introduceert een deterministische, LLM-onafhankelijke pipeline die ruwe domeincorpora omzet in schaalbare en onbevooroordeelde benchmarks voor het evalueren van domeinspecifieke kennis van zowel basis- als chat-modellen, zonder afhankelijk te zijn van menselijke annotatie of bestaande benchmarks.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Dit paper introduceert Sysformer, een methode die de veiligheid van ingevroren grote taalmodellen verbetert door adaptieve systeemprompts te leren, waardoor de weerstand tegen schadelijke prompts en de naleving van veilige prompts aanzienlijk stijgt zonder kostbare hertraining van de modelparameters.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Dit paper introduceert VLMQ, een post-training kwantisatieframework dat specifiek is ontworpen voor vision-language modellen door visuele oververtegenwoordiging en een modale kloof aan te pakken via een salientie-gedreven aanpak die de prestaties aanzienlijk verbetert, zelfs bij zeer lage bitbreedtes.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Dit artikel presenteert een case study waarin een hybride RAG-strategie consistent beter presteert dan directe prompting met lange context bij cross-linguale technische vraagbeantwoording over een landbouwmachine-handboek, met specifieke modellen zoals Gemini 2.5 Flash en Qwen 2.5 7B die nauwkeurigheden van meer dan 85% bereiken.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Dit paper introduceert CMRAG, een co-modale RAG-framework dat tekst en afbeeldingen gelijktijdig benut via een unificatie-encoderingmodel en een co-modale zoekmethode om de prestaties van visuele documentvraag-antwoordsystemen te verbeteren.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

← Vorige Volgende →