cs.CL articles | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

Ce papier présente DRBench, un nouveau benchmark réaliste conçu pour évaluer les agents d'IA sur des tâches de recherche approfondie en entreprise, en les confrontant à des requêtes complexes nécessitant l'intégration de données provenant à la fois du web public et de bases de connaissances privées.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Le papier présente AlphaApollo, un système de raisonnement agentic qui surmonte les limites des modèles de fondation en matière de résolution de problèmes complexes et d'évolution fiable grâce à une orchestration combinant raisonnement multi-tours, apprentissage par renforcement et évolution itérative avec vérification assistée par outils.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

Le papier présente SynthWorlds, un cadre générant des corpus parallèles de mondes réels et synthétiques pour isoler la capacité de raisonnement des modèles de langage de leur connaissance paramétrique, révélant ainsi que l'avantage lié à la mémorisation persiste même avec des mécanismes d'intégration de connaissances.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

Ce papier présente ReViewGraph, un cadre novateur qui améliore l'évaluation automatique des articles en simulant des débats entre auteurs et relecteurs via des LLM et en appliquant un raisonnement sur graphes hétérogènes pour capturer les dynamiques argumentatives complexes.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Cette étude démontre que l'utilisation de l'intelligence artificielle générative dans les publications scientifiques non anglophones accélère leur convergence stylistique vers l'anglais américain, réduisant ainsi les barrières linguistiques historiques tout en soulevant des questions sur l'homogénéisation culturelle.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

Ce papier présente PRISM, un cadre multimodal centré sur l'utilisateur qui intègre des personas dérivés de l'historique et un raisonnement par chaîne de pensée pour améliorer la détection de la posture dans les conversations sociales, soutenu par le nouveau jeu de données U-MStance.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Cet article compare la détection de fausses nouvelles et la prédiction de viralité sur les jeux de données EVONS et FakeNewsNet, démontrant que si la première est stable avec de bons embeddings textuels, la seconde est plus sensible aux choix opérationnels, tout en proposant des pipelines légers et transparents pour rivaliser avec l'état de l'art.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Cette étude propose ELERAG, une architecture de génération augmentée par la récupération intégrant le lien d'entités et une stratégie de réordonnancement hybride, qui démontre une précision factuelle supérieure aux méthodes de l'état de l'art dans des contextes éducatifs spécialisés en italien, tout en révélant l'importance d'adapter les stratégies au domaine pour éviter les biais de distribution.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Ce papier présente DEER, une nouvelle norme d'évaluation pour les agents de recherche approfondie qui génèrent des rapports d'experts, en proposant une taxonomie systématique de 101 critères, des directives d'évaluation et une architecture de vérification des affirmations pour identifier les forces et les faiblesses des systèmes actuels.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

Le papier propose CRANE, un cadre d'analyse basé sur la pertinence fonctionnelle qui identifie avec plus de précision les neurones spécifiques à chaque langue dans les grands modèles multilingues en utilisant des interventions ciblées, révélant ainsi des spécialisations sélectives mais non exclusives que les méthodes traditionnelles basées sur l'activation ne parviennent pas à distinguer.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Cet article présente EVM-QuestBench, un nouveau benchmark ancré dans l'exécution conçu pour évaluer la génération de scripts de transactions en langage naturel sur les chaînes compatibles EVM, en mettant l'accent sur la précision d'exécution et la sécurité grâce à une validation dynamique sur une chaîne forkée.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Ce papier propose EigenData, un cadre unifié combinant un agent de données auto-évolutif et un apprentissage par renforcement à récompense vérifiable, permettant de générer efficacement des agents interactifs d'outils performants sans annotation humaine coûteuse.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Ce papier propose une méthode de préentraînement avec une chaîne de pensée latente adaptative au niveau des tokens, qui génère dynamiquement des trajectoires de raisonnement de longueur variable pour améliorer les performances des modèles de langage tout en réduisant les coûts de calcul.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Les auteurs proposent un nouveau cadre de réordonnancement léger et efficace qui exploite les scores d'attention de modèles de petite taille pour estimer la pertinence des passages, surpassant les méthodes actuelles sur divers benchmarks, notamment LoCoMo, tout en permettant un apprentissage sans supervision explicite et des extensions flexibles.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Ce papier présente Missing-by-Design (MBD), un cadre unifié pour l'analyse de sentiment multimodale réversible qui combine l'apprentissage de représentations structurées et une mise à jour paramétrique certifiable pour supprimer sélectivement des modalités de données sensibles tout en préservant les performances prédictives.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Ce papier présente AuditBench, un benchmark d'audit de l'alignement composé de 56 modèles de langage dotés de comportements cachés, qui permet d'évaluer l'efficacité des techniques d'audit via un agent investigateur et révèle des écarts significatifs entre les performances des outils en mode autonome et celles en mode agent, ainsi que l'influence des techniques d'entraînement sur la difficulté d'audit.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Le papier présente SkillCraft, une nouvelle norme d'évaluation conçue pour tester la capacité des agents LLM à acquérir et réutiliser des compétences composées (des « Skills ») dans des flux de travail complexes, démontrant que cette approche améliore considérablement l'efficacité et les taux de réussite.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← Précédent Suivant →