Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Dit paper introduceert een efficiëntere Transformer-architectuur die de dichte output-projectie in multi-head attention vervangt door een vaste Walsh-Hadamard-transformatie gecombineerd met een lichte affiene herschaling, wat resulteert in een aanzienlijke vermindering van parameters, geheugengebruik en inferentiekosten zonder in te leveren op prestaties.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Dit paper introduceert het COACH-pipeline- en QUORUM-evaluatiekader om gepersonaliseerde gezondheidsadvisering voor kankerpatiënten te genereren en te valideren, waarbij wordt aangetoond dat hoewel gebruikers, experts en ontwikkelaars het eens zijn over de kwaliteit van de inhoud, er belangrijke verschillen blijven bestaan in percepties over toon, foutgevoeligheid en hallucinaties.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Deze paper introduceert ToCoRL, een framework dat de inherente gedragsplasticiteit van grote taalmodellen benut door middel van token-voorwaardelijke generatie en versterkingslering, waardoor modellen hun gedrag (zoals het schakelen tussen stap-voor-stap redeneren en direct antwoorden) stabiel kunnen aanpassen zonder hun oorspronkelijke vaardigheden te verliezen.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Dit paper introduceert Sandpiper, een hybride systeem dat interactieve dashboards en geagenteerde grote taalmodellen combineert om kwalitatieve analyse van educatieve discussies op grote schaal mogelijk te maken zonder in te leveren op methodologische nauwkeurigheid, privacy of betrouwbaarheid.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Deze prospectieve haalbaarheidsstudie toont aan dat een conversational AI (AMIE) in een echte huisartsenpraktijk veilig en effectief kan worden ingezet voor het verzamelen van anamnese en het formuleren van differentiaaldiagnoses, waarbij de kwaliteit vergelijkbaar was met die van huisartsen, hoewel de huisartsen nog steeds beter scoorden op praktische uitvoerbaarheid en kosten-effectiviteit.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Dit paper introduceert Fanar-Sadiq, een tweetalig multi-agent systeem dat islamitische vragen grondig beantwoordt door gespecialiseerde modules te gebruiken voor citatieverificatie, fatwa's en wiskundige berekeningen, waarmee hallucinaties worden voorkomen en de betrouwbaarheid in religieuze contexten wordt vergroot.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Deze paper introduceert OfficeQA Pro, een nieuwe benchmark gebaseerd op een uitgebreid corpus van US Treasury Bulletins die aantoont dat zelfs de meest geavanceerde AI-agenten moeite hebben met grondig, op documenten gebaseerd redeneren in zakelijke contexten, waarbij gestructureerde documentrepresentaties weliswaar de prestaties verbeteren maar nog steeds aanzienlijke ruimte voor verbetering laten.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Dit onderzoek analyseert de schaalbaarheid van ongesuperviseerd versterkend leren met verifieerbare beloningen (URLVR) en concludeert dat inheemse beloningsmethoden, hoewel nuttig voor testtijd-training, fundamenteel beperkt zijn door een 'vertrouwen-correctheid'-plafond dat leidt tot modelinstorting, terwijl externe beloningsmechanismen een veelbelovend alternatief bieden om deze grenzen te doorbreken.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG