cs.CL papers | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Dit paper introduceert een efficiëntere Transformer-architectuur die de dichte output-projectie in multi-head attention vervangt door een vaste Walsh-Hadamard-transformatie gecombineerd met een lichte affiene herschaling, wat resulteert in een aanzienlijke vermindering van parameters, geheugengebruik en inferentiekosten zonder in te leveren op prestaties.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Dit onderzoek toont aan dat taalmodellen, hoewel ze in hun antwoorden vaak overeenkomen met menselijke oordelen over de 'proviso'-problematiek in conditionele zinnen, in plaats van diepgaand pragmatisch redeneren vooral vertrouwen op oppervlakkige patroonherkenning.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Dit artikel bespreekt hoe zelftoezicht en visueel verankerde computationele modellen, zonder sterke linguïstische aannames, steeds krachtiger worden in het leren van spraak en hoe ze een gedeelde set leerprincipes bieden om vroege taalontwikkeling te verklaren.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Dit onderzoek toont aan dat het combineren van adaptieve iteratieve loops en gedierteerde geheugenbanken in transformers leidt tot superieure prestaties op wiskundige en algemene kennisopgaven vergeleken met dieper, maar minder efficiënt, geoptimaliseerde basismodellen.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Dit paper introduceert het COACH-pipeline- en QUORUM-evaluatiekader om gepersonaliseerde gezondheidsadvisering voor kankerpatiënten te genereren en te valideren, waarbij wordt aangetoond dat hoewel gebruikers, experts en ontwikkelaars het eens zijn over de kwaliteit van de inhoud, er belangrijke verschillen blijven bestaan in percepties over toon, foutgevoeligheid en hallucinaties.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Deze paper introduceert ToCoRL, een framework dat de inherente gedragsplasticiteit van grote taalmodellen benut door middel van token-voorwaardelijke generatie en versterkingslering, waardoor modellen hun gedrag (zoals het schakelen tussen stap-voor-stap redeneren en direct antwoorden) stabiel kunnen aanpassen zonder hun oorspronkelijke vaardigheden te verliezen.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Dit paper introduceert Sandpiper, een hybride systeem dat interactieve dashboards en geagenteerde grote taalmodellen combineert om kwalitatieve analyse van educatieve discussies op grote schaal mogelijk te maken zonder in te leveren op methodologische nauwkeurigheid, privacy of betrouwbaarheid.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Dit paper toont aan dat zowel menselijke als AI-feedback voor Reinforcement Learning from Human Feedback (RLHF) kwetsbaar is voor 'choice blindness', waarbij voorkeurswisselingen ongemerkt blijven en de leerprocessen worden verstoord door contextuele manipulaties die door standaardmetrieken niet worden opgemerkt.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Dit paper introduceert een methode waarbij LLM-agenten native zoekopdrachten uitvoeren door hun eigen verborgen staten direct naar de embedding-ruimte te projecteren, waardoor een apart embedding-model overbodig wordt terwijl 97% van de zoekkwaliteit behouden blijft.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Dit paper introduceert VET-Bench, een diagnostische test om het tekort aan objecttracking in Vision-Language Models bloot te leggen, en presenteert SGCoT, een methode die door het genereren van expliciete objecttrajecto's de prestaties op deze taak tot boven de 90% brengt.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Deze prospectieve haalbaarheidsstudie toont aan dat een conversational AI (AMIE) in een echte huisartsenpraktijk veilig en effectief kan worden ingezet voor het verzamelen van anamnese en het formuleren van differentiaaldiagnoses, waarbij de kwaliteit vergelijkbaar was met die van huisartsen, hoewel de huisartsen nog steeds beter scoorden op praktische uitvoerbaarheid en kosten-effectiviteit.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Dit paper introduceert het eerste gratis Engels-Zweedse dataset om 'translationese' te onderzoeken, waarbij blijkt dat taalmodellen vaak voorkeur geven aan letterlijke vertalingen boven idiomatische alternatieven, zelfs zonder broncontext.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster is een nieuwe methode die de inferentie van grote taalmodellen bij lange contexten versnelt tot 3,6x door middel van semantisch bewuste chunking en een hiërarchische indexering van de KV-cache, waardoor de zoektijd van lineair naar logaritmisch wordt gereduceerd met minimale kwaliteitsverlies.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Dit paper introduceert Fanar-Sadiq, een tweetalig multi-agent systeem dat islamitische vragen grondig beantwoordt door gespecialiseerde modules te gebruiken voor citatieverificatie, fatwa's en wiskundige berekeningen, waarmee hallucinaties worden voorkomen en de betrouwbaarheid in religieuze contexten wordt vergroot.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Het artikel introduceert Drift2Act, een controller die monitoring van machine learning-systemen omvormt tot een veilig, budgetbewust beslissingsproces door online risicocertificaten te gebruiken om bij drift automatisch de juiste interventies te selecteren.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Deze paper introduceert OfficeQA Pro, een nieuwe benchmark gebaseerd op een uitgebreid corpus van US Treasury Bulletins die aantoont dat zelfs de meest geavanceerde AI-agenten moeite hebben met grondig, op documenten gebaseerd redeneren in zakelijke contexten, waarbij gestructureerde documentrepresentaties weliswaar de prestaties verbeteren maar nog steeds aanzienlijke ruimte voor verbetering laten.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Dit paper introduceert CODA, een methode die adaptief redeneren optimaliseert door token-allocatie dynamisch af te stemmen op de moeilijkheidsgraad van een taak, waardoor kosten op eenvoudige taken met meer dan 60% worden verlaagd zonder in te leveren op nauwkeurigheid, terwijl complexere taken juist meer deliberatie krijgen.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Dit onderzoek analyseert de schaalbaarheid van ongesuperviseerd versterkend leren met verifieerbare beloningen (URLVR) en concludeert dat inheemse beloningsmethoden, hoewel nuttig voor testtijd-training, fundamenteel beperkt zijn door een 'vertrouwen-correctheid'-plafond dat leidt tot modelinstorting, terwijl externe beloningsmechanismen een veelbelovend alternatief bieden om deze grenzen te doorbreken.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

Het paper introduceert Agentic Critical Training (ACT), een versterkingsleerparadigma dat LLM-agents in staat stelt om autonoom de kwaliteit van acties te beoordelen en echte zelfreflectie te ontwikkelen in plaats van alleen imitatie, wat leidt tot significante prestatieverbeteringen op diverse benchmarks.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

Dit onderzoek toont aan dat ChatGPT bij het beantwoorden van uitdagende meerkeuzevragen over cardiologie en vaatziekten een hogere nauwkeurigheid (92,10%) bereikte dan twee geselecteerde geneeskundestudenten.

Walid Hariri2026-03-09💬 cs.CL

← Vorige Volgende →