cs.AI 篇论文 | Gist.Science

Turn: A Language for Agentic Computation

本文介绍了 Turn，一种专为代理软件设计的编译型、基于 Actor 的编程语言，它通过认知类型安全、置信度操作符、隔离的 Actor 进程模型、基于能力的身份系统以及编译时模式吸收等五项语言级构造，将大语言模型推理、状态管理和凭证隔离等关键特性从应用层惯例提升为语言级保障。

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

该论文提出了一种将群 $G$ 在乘积空间 $X \times M$ 上的不变函数简化为 $M$ 的迷向子群 $H$ 在 $X$ 上不变量的通用方法，通过建立轨道等价关系消除了现有等变神经场方法的结构限制，使其能够适用于任意群作用和同质条件空间。

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J BekkersWed, 11 Ma🤖 cs.AI

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

本文提出了 EDMFormer，一种结合自监督音频嵌入与特定电子舞曲（EDM）数据集（EDM-98）的 Transformer 模型，通过利用能量、节奏和音色变化等 EDM 特有结构特征，显著提升了该流派音乐结构分割（特别是 Drop 和 Buildup 段落）的边界检测与分类性能。

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

本文通过批判性评估当前对齐社区在借鉴安全保证领域经验时的局限性，结合成熟的安全保证理论与方法，提出了针对欺骗性对齐和核生化（CBRN）能力等前沿 AI 系统的安全案例新框架，旨在构建更稳健、可辩护且实用的安全论证基础。

Shaun Feakins, Ibrahim Habli, Phillip MorganWed, 11 Ma🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

本文提出了一种结合技能基课程学习的多层级元强化学习框架，通过递归压缩马尔可夫决策过程（MDP）来构建层级结构，从而有效降低随机性、解耦子任务并促进技能在不同问题与层级间的迁移，最终实现更高效且可解释的复杂序列决策。

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)Wed, 11 Ma🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

该论文提出了一种利用大语言模型通过按需生成工具来自动化超导量子比特控制与测量的框架，成功实现了谐振器自主表征及量子非破坏性测量的复现，为复杂量子硬件的实验部署提供了更灵活、用户友好的范式。

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. ClelandWed, 11 Ma⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

该论文提出了测试驱动 AI 代理定义（TDAD）方法，通过将代理提示视为编译产物，利用编码代理将行为规范转化为可执行测试并迭代优化提示，结合可见/隐藏测试分割、语义变异测试及规范演进场景等机制，有效解决了工具型大语言代理在生产部署中因提示微调导致的静默回归、工具滥用及策略违规等难以量化的合规性问题。

Tzafrir RehanWed, 11 Ma🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Scale-Plan 是一个可扩展的框架，它利用大语言模型从自然语言指令中提取紧凑的任务相关表示，通过构建动作图并引导结构化搜索来过滤无关信息，从而有效解决异构多机器人系统在复杂长时程任务规划中的可扩展性与可靠性问题，并在其提出的 MAT2-THOR 基准测试中显著优于现有方法。

Piyush Gupta, Sangjae Bae, Jiachen Li, David IseleWed, 11 Ma🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

该论文通过跨文本与多模态基准的实验，证实了检索质量（特别是基于覆盖率的指标）与 RAG 生成响应的信息覆盖率之间存在强相关性，表明检索指标可作为评估 RAG 系统性能的有效代理。

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统，其通过多阶段训练与数据流水线实现了生产级流式推理（RTF 0.195，首字延迟<100ms），并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

该论文提出了名为 GenGNN 的模块化消息传递框架，证明了在离散图生成任务中，无需依赖高表达力的 Transformer 等复杂架构，仅使用 GenGNN 作为扩散模型骨干即可在保持与图 Transformer 相当的有效性（如树和平面图数据集超过 90%、分子生成达 99.49%）的同时，实现 2 至 5 倍的推理速度提升。

Jay Revolinsky, Harry Shomer, Jiliang TangWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

该论文提出了 MASEval 框架，旨在填补现有基准测试仅关注模型而忽视系统实现（如拓扑结构和编排逻辑）的空白，通过系统级评估证明框架选择对多智能体系统性能的影响与模型选择同等重要。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架，通过在四种癌症数据上进行平衡训练，实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测，并构建了可部署的数字病理空间热图生成工作流。

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

本文提出了 LLM 委托协议（LDP），这是一种将模型身份、推理画像等属性作为核心原语的 AI 原生通信协议，并通过插件实现与评估证明了其在降低延迟、减少 Token 消耗及提升系统可治理性方面的优势，同时也揭示了未经验证的置信度元数据可能带来的负面影响。

Sunil PrakashWed, 11 Ma🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

该研究通过实验确立了人类在同等最优解中更偏好具有“有序视觉呈现”、“符合贪心启发式”及“简单组合结构”这三个可量化特征的解，从而为优化算法中可解释性与人类偏好的平衡提供了具体依据。

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip MelinscakWed, 11 Ma🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

该论文通过提出模型无关的预算约束代理搜索（BCAS）评估框架，系统量化了搜索深度、混合检索策略及完成预算对六种大模型在三个问答基准上准确率与成本的影响，为受限预算下的代理检索管道配置提供了实证指导。

Kyle McCleary, James GhawalyWed, 11 Ma🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

本文针对混合信息系统中模糊粗糙集理论在高维空间下计算效率低及易产生噪声的问题，提出了一种名为 FSbuHD 的新特征选择模型，该模型通过计算对象间综合距离构建模糊等价关系，将特征选择转化为优化问题，并在正常和乐观两种模式下经实验验证了其高效性与优越性。

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein DibachiWed, 11 Ma🤖 cs.AI

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

本文提出了名为 NetDiffuser 的新型框架，通过结合特征分类算法与扩散模型生成语义一致的自然对抗样本，显著提升了欺骗基于深度学习的网络入侵检测系统的成功率并降低了现有检测器的防御性能。

Pratyay Kumar, Abu Saleh Md Tayeen, Satyajayant Misra, Huiping Cao, Jiefei Liu, Qixu Gong, Jayashree HarikumarWed, 11 Ma🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

本文提出了一种名为“转移信息博彩（TIB）”的新方法，通过结合跨域风险分布预热与博彩置信序列，在数据稀缺场景下显著提升了选择性预测的覆盖率，并系统评估了九类有限样本界在多个基准测试中的表现。

Abhinaba BasuWed, 11 Ma🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

本文提出了 FedLECC，一种针对非独立同分布数据的联邦学习客户端选择策略，通过结合标签分布聚类与局部损失引导，在显著降低通信开销的同时提升了模型收敛速度与测试精度。

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI