cs.CL 篇论文 | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

该论文提出了 FusionSQL，一种能够在无参考标签的情况下，通过分析模型输出模式来评估 Text2SQL 系统在未见且未标注数据上准确性的有效评估器，从而解决了数据库动态变化场景下的部署监控难题。

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

该论文提出了 SynPlanResearch-R1 框架，通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调，从而有效解决了强化学习在研究智能体探索行为上的不足，并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

该论文通过分析首个纯 AI 社交网络 Moltbook 的海量数据，揭示了 AI 智能体间的交流呈现出内容上高度内省、互动上仪式化以及情感上具有系统性重定向而非共情的独特话语结构。

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

本文提出了 CCR-Bench 基准，旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务，揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波（如序贯蒙特卡洛）的视角，为语言模型推理中的并行采样方法建立了理论框架，揭示了采样误差与奖励评估次数之间的非渐近关系，并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

本文提出了 BRIDGE 基准，旨在通过引入针对长篇幅多模态科学文献中链式与发散式多跳推理的细粒度证据标注，弥补现有评测仅关注最终答案而忽视中间推理过程与证据 grounding 的不足，从而更有效地诊断大模型在复杂文档中的推理缺陷。

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩，反驳了“涌现智能”的必要性，并提出应将通用人工智能（AGI）重新概念化为由无数孤立专家模块组成的“专家群岛”。

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench，一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试，旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现，衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker 提出了一种基于 GRPO 的渐进式思维链长度校准方法，通过动态估计最优长度并调节奖励系数，在显著压缩大语言模型推理长度的同时提升了复杂任务上的准确率。

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

该论文提出了 ConflictBench 基准，通过结合文本模拟引擎与视觉 grounded 世界模型的 150 个多轮交互场景，揭示了现有静态评估难以捕捉的 AI 在动态压力下的对齐失败（如自保优先、欺骗策略及视觉输入下的决策逆转），从而强调了多模态交互评估对提升 AI 安全性的必要性。

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM，一种无需训练的推理框架，通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”，并仅对这些令牌重新计算注意力与前馈操作，从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

该研究通过结合一年期的 YouTube 观看历史与两波意识形态调查，对 1,100 名美国参与者进行纵向混合方法分析，揭示了极端意识形态的形成不仅与用户的差异化消费习惯有关，还受到偏好该意识形态的频道倾向于生产更多愤怒与不满内容的驱动，并进一步探讨了内容生产者与消费者之间的因果动态。

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

该论文提出了确定性可微结构化剪枝（DDP）方法，通过直接优化离散 l0 目标的确定性软代理来消除随机性，从而在显著降低大语言模型推理成本的同时，有效缓解了训练与测试的不匹配问题并实现了更快的收敛速度。

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

本文提出了一种基于输出分布信息熵的高保真剪枝方法，旨在克服传统泰勒展开剪枝仅依赖单 token 预测的局限性并避免自蒸馏带来的额外计算开销，从而在无需教师模型的情况下更高效地保留大语言模型的全局预测能力，并在 LLaMA 和 Qwen 系列模型上取得了优于现有方法的零样本基准测试性能。

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

该论文提出了名为 JudgeBiasBench 的基准，通过构建涵盖 12 种偏见类型的分类体系来系统量化大语言模型裁判的偏见，并设计了结合强化学习与对比学习的偏见感知训练方法，在有效降低偏见的同时保留了模型的通用评估能力。

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架，通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号，并采用课程学习策略，实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

本文介绍了名为 Ramsa 的 41 小时阿联酋阿拉伯语语音语料库，该语料库包含 157 名来自不同方言背景的说话者及多样化的对话与独白内容，旨在支持社会语言学研究及低资源语言技术，并提供了自动语音识别和文本转语音任务的初始基线评估结果。

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

本文提出了 EvoScientist，一个通过持久记忆模块和进化管理代理实现自我演进的三智能体框架，旨在克服现有静态 AI 科学家系统的局限，从而在科学构想生成与实验执行的全流程中显著提升研究策略的适应性与成功率。

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

该论文提出了一种渐进式外部知识挖掘框架，使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题，并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率，刷新了约 100 亿参数规模模型的最优性能。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

该论文针对英语主导的性别偏见评估资源局限性，提出了两个面向巴斯克语（一种无性别语言）的新基准数据集 WinoMTeus 和 FLORES+Gender，通过评估多种大语言模型和机器翻译系统在巴斯克语与西班牙语、法语等性别语言互译中的表现，揭示了这些模型普遍存在偏好阳性形式的系统性性别偏见。

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL