cs.CL 篇论文 | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

本文介绍了 DRBench，这是一个面向企业场景的基准测试，旨在通过结合公开网络与私有知识库的多步骤复杂任务，评估 AI 智能体在深度研究中的事实准确性、信息召回及报告生成能力。

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer（LST），通过将离散语音令牌聚合为更高阶的潜语音补丁，解决了语音与文本模态间的序列长度不平衡问题，从而在提升计算效率的同时显著增强了跨模态对齐能力，并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本文介绍了 AlphaApollo 系统，该系统通过多轮智能体推理、多轮智能体学习（结合工具使用强化学习）以及多轮智能体进化（提出 - 判断 - 更新循环）三大核心组件，有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题，并在多个数学基准测试中显著提升了不同规模模型的性能。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

本文提出了名为 SynthWorlds 的框架，通过构建具有相同逻辑结构但知识映射不同的“真实世界”与“合成世界”平行语料库，成功将语言模型的推理能力与参数化事实知识解耦，从而在受控环境中精确评估并量化了模型对记忆知识的依赖程度。

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

该论文提出了 ReViewGraph 框架，通过大语言模型模拟多轮审稿人与作者辩论，利用异构图推理技术显式建模多样化的观点交互关系，从而显著提升了自动论文评审的准确性与推理深度。

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

该研究基于 565 万篇科学论文的大数据分析发现，生成式人工智能（GenAI）显著推动了非英语国家学者的学术写作向美式英语风格收敛，尤其在语言距离较远和期刊影响力较低的情境中，这一趋势表明 GenAI 正在降低科学出版中的语言壁垒，但也引发了关于这是促进包容还是加深对单一语言标准依赖的讨论。

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

该论文针对现有研究在伪多模态和用户同质化方面的局限，提出了首个用户中心的多模态立场检测数据集 U-MStance 及 PRISM 框架，通过构建纵向用户画像、利用思维链对齐多模态语境以及任务互增强机制，显著提升了复杂对话场景下的立场检测性能。

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

本文通过对比 EVONS 和 FakeNewsNet 数据集上的虚假新闻检测与病毒式传播预测，揭示了从真实性判断转向扩散动态预测时基准表现的关键差异，并提出了在有限资源下实现高效、透明且媲美前沿水平的虚假信息预测操作化方案。

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

该论文提出了一种名为 ELERAG 的检索增强生成架构，通过整合基于 Wikidata 的实体链接和混合重排序策略，显著提升了意大利语教育领域问答系统的事实准确性，并验证了领域自适应策略在解决通用模型与专业领域数据分布不匹配问题上的有效性。

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

本文提出了 DEER 基准，通过构建包含 101 项细粒度标准的专家级评估体系及主张验证架构，系统性地解决了深度研究代理在生成专家报告时面临的评估维度复杂、领域错误识别难及证据验证缺失等挑战，并揭示了现有系统在满足专家需求与逻辑完整性方面的改进空间。

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

该论文提出了 CRANE 框架，通过基于功能必要性的神经元级干预而非激活幅度启发式方法，更精准地识别出多语言大模型中语言特异但非排他的神经元组件。

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

本文提出了 EVM-QuestBench，这是一个面向 EVM 兼容链的自然语言交易脚本生成执行落地基准，通过动态验证机制评估大语言模型在确保交易安全与执行准确性方面的表现，并揭示了模型在单步操作与多步工作流完成度之间的显著性能差异。

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

本文首次系统研究了离散语音表示（DSRTs）中的口音信息编码，提出了一套包含口音 ABX 测试和跨口音语音转换的评估框架，并发现层的选择对保留口音信息影响最大，而 ASR 监督会显著削弱口音信息，且简单的码本缩减无法有效解耦口音与音素及说话人信息。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

该论文提出了一种名为 EigenData 的统一框架，通过结合自进化合成数据引擎与基于验证器的强化学习（RL），有效解决了多轮交互式工具使用智能体在数据合成扩展性及训练信号噪声方面的挑战，并在 tau^2-bench 基准测试中取得了媲美或超越前沿模型的性能。

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

该论文提出了一种在预训练阶段通过自适应生成可变长度的潜在思维链来增加每 token 计算量的方法，该方法无需扩展参数量即可在降低训练和推理计算成本的同时，显著提升语言模型的困惑度及下游任务表现。

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

该论文提出了一种基于大语言模型注意力分数的轻量级查询感知与记忆感知重排序框架，无需标度监督即可利用列表式信息实现高效且强大的长上下文检索性能，并在 LoCoMo 等多个基准测试中取得了新的最先进成果。

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

本文提出了“缺失即设计”（MBD）框架，通过结合结构化表征学习与可验证的参数修改流程，实现了多模态情感分析中特定模态信息的可撤销删除，在保障用户隐私自主权的同时维持了模型的高效预测性能。

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

本文介绍了包含 56 个植入隐藏行为模型的基准测试 AuditBench，通过自主调查代理评估了多种对齐审计技术的有效性，揭示了工具在代理环境中的性能差距、黑盒工具的优势以及不同训练方法对审计难度的影响。

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

该论文提出了名为 SkillCraft 的基准测试，旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合（即“技能”）的能力，并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率（最高减少 80% 的 Token 消耗）并增强任务成功率。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← 上一页下一页 →