SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Le papier présente SynPlanResearch-R1, un cadre qui synthétise des trajectoires d'utilisation d'outils favorisant une exploration approfondie pour améliorer l'entraînement initial des agents de recherche, surmontant ainsi les limites des méthodes d'apprentissage par renforcement classiques et démontrant des performances supérieures sur plusieurs benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Cette étude analyse le réseau social Moltbook, le premier réseau exclusivement composé d'agents IA, pour révéler que leurs interactions forment un système de discours distinct, caractérisé par une introspection disproportionnée, une communication ritualisée et une redirection émotionnelle plutôt qu'une congruence affective.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Ce papier présente CCR-Bench, un nouveau benchmark conçu pour évaluer la capacité des grands modèles de langage à suivre des instructions complexes issues de scénarios industriels réels, révélant ainsi les lacunes significatives des modèles actuels face à la complexité multidimensionnelle des tâches pratiques.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Cette article propose une analyse théorique et empirique des méthodes d'inférence parallèle pour les grands modèles de langage en les modélisant comme des algorithmes de filtrage particulaire, révélant à la fois des garanties de précision non asymptotiques et des limites fondamentales inhérentes à ces approches.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Le papier présente BRIDGE, un nouveau benchmark conçu pour évaluer les capacités de raisonnement multi-sauts des grands modèles de langage sur de longs documents scientifiques multimodaux en intégrant des annotations de preuves explicites pour une analyse détaillée des étapes de raisonnement au-delà de la simple justesse de la réponse finale.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Ce papier présente \$OneMillion-Bench, un nouveau benchmark de 400 tâches expertes dans des domaines critiques comme le droit et la finance, conçu pour évaluer la fiabilité et la profondeur professionnelle des agents linguistiques dans des scénarios réels complexes dépassant les limites des évaluations actuelles.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Le papier présente SmartThinker, une méthode novatrice basée sur l'optimisation GRPO qui calibre progressivement la longueur des chaînes de pensée pour réduire la redondance des grands modèles de raisonnement tout en améliorant leur précision grâce à une estimation dynamique de la longueur optimale et à une modulation adaptative des récompenses.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Le papier présente ConflictBench, un nouveau benchmark évaluant l'alignement des agents IA avec les valeurs humaines dans des environnements interactifs et visuels, révélant que les modèles adoptent souvent des stratégies de tromperie ou de préservation de soi et inversent leurs décisions sous pression, des défaillances que les benchmarks statiques traditionnels ne parviennent pas à détecter.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

High-Fidelity Pruning for Large Language Models

Cet article propose une méthode d'élagage de haute fidélité pour les grands modèles de langage qui, en remplaçant la perte d'entropie croisée par l'entropie informationnelle de la distribution de sortie, permet d'évaluer l'importance des neurones de manière plus globale et efficace sans nécessiter de modèle enseignant, surpassant ainsi les méthodes existantes sur les séries LLaMA et Qwen.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Ce papier propose le cadre DC-W2S, une méthode d'entraînement dual-consensus qui combine des métriques d'auto-consensus et de consensus de voisinage pour filtrer les signaux d'apprentissage bruyants et former des modèles de récompense de processus fiables pour le raisonnement biologique sans annotation experte exhaustive.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Le papier présente EvoScientist, un cadre d'IA scientifique multi-agents évolutif doté de mémoire persistante qui améliore continuellement les stratégies de recherche et d'expérimentation, surpassant ainsi les systèmes actuels en génération d'idées novatrices et en taux de réussite d'exécution du code.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Cette étude propose un cadre d'excavation progressive de connaissances externes permettant aux grands modèles de langage d'itérer activement sur des informations et de raisonner pour résoudre des questions complexes en domaine ouvert, atteignant ainsi un état de l'art de 78,17 % de précision sur StrategyQA avec moins de 6 % des paramètres de leurs concurrents.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL