cs.CL articles | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Ce papier propose de remplacer la projection de sortie dense de l'attention par une transformée de Hadamard-Walch fixe et sans paramètres suivie d'une mise à l'échelle affine légère, réduisant ainsi significativement le nombre de paramètres et la consommation mémoire tout en maintenant, voire en améliorant, les performances et l'efficacité computationnelle des Transformers.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Cette étude évalue la capacité des modèles de langage à résoudre le problème du proviso en pragmatique, révélant qu'ils alignent leurs jugements sur ceux des humains mais reposent sur un appariement de motifs superficiel plutôt que sur un raisonnement sémantique ou pragmatique profond.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Ce chapitre examine comment les modèles computationnels auto-supervisés et ancrés dans le visuel permettent d'expliquer l'acquisition précoce du langage à partir de la parole et de l'input audiovisuel sans recourir à des prérequis linguistiques forts, en reliant ces simulations de plus en plus réalistes aux données empiriques sur le développement infantile.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Cette étude propose des transformateurs combinant une boucle adaptative par couche et des banques de mémoire gating, démontrant que cette architecture améliore le raisonnement mathématique et les tâches de bon sens tout en surpassant des modèles iso-FLOP trois fois plus profonds, grâce à une spécialisation des couches où les premières itèrent peu et accèdent rarement à la mémoire tandis que les dernières le font intensivement.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Ce papier présente QUORUM, un cadre d'évaluation unifiant les perspectives des utilisateurs, experts et développeurs, et COACH, un pipeline piloté par les LLM pour générer des conseils de mode de vie personnalisés pour les patients cancéreux, démontrant ainsi la nécessité d'une évaluation multi-parties prenantes pour des systèmes de santé fiables et centrés sur le patient.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Ce papier présente ToCoRL, un cadre d'apprentissage par renforcement qui exploite la plasticité comportementale intrinsèque des grands modèles de langage via la génération conditionnelle par tokens pour stabiliser des modes de réponse adaptatifs sans dégrader leurs capacités.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Le papier présente Sandpiper, un système mixte combinant tableaux de bord interactifs et moteurs d'IA pour permettre l'analyse qualitative à grande échelle de discours éducatifs tout en garantissant la confidentialité des données, la rigueur méthodologique et la fiabilité des modèles.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Cette étude remet en question la stabilité des préférences dans l'apprentissage par renforcement à partir de feedback humain (RLHF) en démontrant que les humains et les modèles de langage sont sujets à une « cécité de choix » masquant les manipulations, ce qui conduit à une dégradation des politiques d'IA non détectée par les métriques standards.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Cette proposition de recherche introduit une méthode permettant aux agents LLM d'intégrer nativement la récupération d'informations via une projection légère de leurs états cachés, éliminant ainsi le besoin d'un modèle d'encodage séparé tout en préservant 97 % de la qualité de récupération.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Ce papier présente VET-Bench, un test diagnostique révélant les limites des modèles vision-langage actuels dans le suivi d'entités visuellement identiques, et propose la méthode SGCoT qui, en générant des trajectoires explicites, permet d'atteindre une précision supérieure à 90 % sur cette tâche.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Cette étude de faisabilité prospective démontre qu'un système d'IA conversationnelle (AMIE) peut mener des entretiens cliniques en toute sécurité dans un cabinet de soins primaires, générant des diagnostics différentiels et des plans de prise en charge de qualité comparable à ceux des médecins, tout en étant bien accueilli par les patients et les cliniciens.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Cet article présente le premier ensemble de données librement accessible en anglais-suédois contrastant les traductions littérales (translationese) avec des alternatives idiomatiques, révélant que les modèles de langage tendent à privilégier les traductions littérales, un biais qui s'atténue partiellement lorsque la source est masquée.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster est une méthode novatrice de gestion de cache KV qui améliore l'inférence des grands modèles de langage sur des contextes longs en utilisant un découpage sensible aux limites et un index hiérarchique récursif pour réduire la complexité de recherche de logarithmique, offrant ainsi une accélération jusqu'à 3,6 fois avec une perte de performance négligeable.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Ce papier présente Fanar-Sadiq, une architecture multi-agents bilingue (arabe/anglais) conçue pour répondre aux questions islamiques en évitant les hallucinations grâce à un routage intelligent, une vérification rigoureuse des citations scripturaires et des calculateurs déterministes pour le droit islamique, le tout étant déjà accessible publiquement avec près de 1,9 million d'utilisations.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Le papier présente Drift2Act, un contrôleur qui transforme la surveillance de la dérive de distribution en prise de décision contrainte en combinant une couche de détection avec un certificat de risque en ligne pour déclencher automatiquement des interventions adaptatives ou des arrêts de sécurité tout en respectant les contraintes de coût et de latence.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Le papier présente OfficeQA Pro, un nouveau benchmark évaluant la capacité des agents IA à effectuer un raisonnement ancré sur un vaste corpus hétérogène de documents du Trésor américain, révélant que même les modèles de pointe peinent à atteindre une fiabilité suffisante pour des applications d'entreprise sans une représentation structurée avancée des documents.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Le papier présente CODA, une méthode qui optimise l'allocation dynamique des ressources de calcul en fonction de la difficulté des tâches pour réduire les coûts sur les problèmes simples tout en améliorant les performances sur les problèmes complexes, sans nécessiter d'annotations externes.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Cette étude analyse les limites théoriques et pratiques de l'apprentissage par renforcement non supervisé avec récompenses vérifiables (URLVR), révélant que les méthodes intrinsèques conduisent inévitablement à un effondrement du modèle lorsque la confiance initiale est mal alignée avec la justesse, tout en identifiant des pistes prometteuses via des récompenses externes basées sur l'asymétrie computationnelle.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

L'article propose l'Agentic Critical Training (ACT), une méthode d'apprentissage par renforcement qui permet aux agents de développer un raisonnement autonome sur la qualité de leurs actions plutôt que d'imiter des réflexions préconçues, améliorant ainsi significativement leurs performances et leur capacité de généralisation.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

Cette étude démontre que ChatGPT surpasse deux étudiants en médecine dans la réponse à des questions complexes en cardiologie et pathologies vasculaires, obtenant un score de 92,10 % contre 85,78 % et 82,63 % pour les étudiants, ce qui suggère son fort potentiel comme outil d'apprentissage médical.

Walid Hariri2026-03-09💬 cs.CL

← Précédent Suivant →