cs.CL articles | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Cet article propose une méthode nommée AQE pour quantifier l'effet des raccourcis liés aux questions dans la détection d'hallucinations, révélant ainsi que les performances actuelles reposent largement sur l'exploitation des benchmarks plutôt que sur une véritable conscience du modèle.

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Ce papier présente v-HUB, une nouvelle référence pour l'évaluation de la compréhension de l'humour vidéo par les modèles de langage multimodaux, démontrant que l'intégration de l'audio améliore significativement leurs performances face à des défis visuels complexes.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Ce papier présente DRBench, un nouveau benchmark réaliste conçu pour évaluer les agents d'IA sur des tâches de recherche approfondie en entreprise, en les confrontant à des requêtes complexes nécessitant l'intégration de données provenant à la fois du web public et de bases de connaissances privées.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Le papier présente AlphaApollo, un système de raisonnement agentic qui surmonte les limites des modèles de fondation en matière de résolution de problèmes complexes et d'évolution fiable grâce à une orchestration combinant raisonnement multi-tours, apprentissage par renforcement et évolution itérative avec vérification assistée par outils.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Le papier présente SynthWorlds, un cadre générant des corpus parallèles de mondes réels et synthétiques pour isoler la capacité de raisonnement des modèles de langage de leur connaissance paramétrique, révélant ainsi que l'avantage lié à la mémorisation persiste même avec des mécanismes d'intégration de connaissances.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Cet article propose la « capacité d'information », une nouvelle métrique évaluant l'efficacité des grands modèles de langage via la compression de texte et l'efficacité des tokenizers, permettant ainsi de prédire les performances et d'identifier des biais linguistiques tout en guidant le développement futur de modèles plus efficaces.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Ce papier présente ReViewGraph, un cadre novateur qui améliore l'évaluation automatique des articles en simulant des débats entre auteurs et relecteurs via des LLM et en appliquant un raisonnement sur graphes hétérogènes pour capturer les dynamiques argumentatives complexes.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Cette étude démontre que l'utilisation de l'intelligence artificielle générative dans les publications scientifiques non anglophones accélère leur convergence stylistique vers l'anglais américain, réduisant ainsi les barrières linguistiques historiques tout en soulevant des questions sur l'homogénéisation culturelle.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Ce papier présente PRISM, un cadre multimodal centré sur l'utilisateur qui intègre des personas dérivés de l'historique et un raisonnement par chaîne de pensée pour améliorer la détection de la posture dans les conversations sociales, soutenu par le nouveau jeu de données U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Cet article compare la détection de fausses nouvelles et la prédiction de viralité sur les jeux de données EVONS et FakeNewsNet, démontrant que si la première est stable avec de bons embeddings textuels, la seconde est plus sensible aux choix opérationnels, tout en proposant des pipelines légers et transparents pour rivaliser avec l'état de l'art.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Cette étude propose ELERAG, une architecture de génération augmentée par la récupération intégrant le lien d'entités et une stratégie de réordonnancement hybride, qui démontre une précision factuelle supérieure aux méthodes de l'état de l'art dans des contextes éducatifs spécialisés en italien, tout en révélant l'importance d'adapter les stratégies au domaine pour éviter les biais de distribution.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Ce papier présente DEER, une nouvelle norme d'évaluation pour les agents de recherche approfondie qui génèrent des rapports d'experts, en proposant une taxonomie systématique de 101 critères, des directives d'évaluation et une architecture de vérification des affirmations pour identifier les forces et les faiblesses des systèmes actuels.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Le papier propose CRANE, un cadre d'analyse basé sur la pertinence fonctionnelle qui identifie avec plus de précision les neurones spécifiques à chaque langue dans les grands modèles multilingues en utilisant des interventions ciblées, révélant ainsi des spécialisations sélectives mais non exclusives que les méthodes traditionnelles basées sur l'activation ne parviennent pas à distinguer.

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Cet article présente EVM-QuestBench, un nouveau benchmark ancré dans l'exécution conçu pour évaluer la génération de scripts de transactions en langage naturel sur les chaînes compatibles EVM, en mettant l'accent sur la précision d'exécution et la sécurité grâce à une validation dynamique sur une chaîne forkée.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Ce papier propose EigenData, un cadre unifié combinant un agent de données auto-évolutif et un apprentissage par renforcement à récompense vérifiable, permettant de générer efficacement des agents interactifs d'outils performants sans annotation humaine coûteuse.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Ce papier propose une méthode de préentraînement avec une chaîne de pensée latente adaptative au niveau des tokens, qui génère dynamiquement des trajectoires de raisonnement de longueur variable pour améliorer les performances des modèles de langage tout en réduisant les coûts de calcul.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← Précédent Suivant →