cs.SE 篇论文 | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

该论文提出了“遍历即策略”（Traversal-as-Policy）框架，通过将沙盒执行日志蒸馏为可执行的门控行为树（GBT），将控制策略从隐式生成转变为显式遍历，从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本文介绍了 EigenData，一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台，该平台在修复 Berkeley 函数调用排行榜（BFCL-V3）基准测试的同时，引入了基于数据库状态正确性的结果感知评估协议，显著提升了模型排名与人类对功能正确性判断的相关性。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

本文提出了名为 Tool-Genesis 的诊断基准，旨在量化语言智能体仅凭抽象需求自主创建工具的能力，并揭示了当前最先进模型在一次性生成中因接口与逻辑的微小缺陷而导致下游任务性能急剧下降的问题。

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

本文提出了首个基于实证证据的模型上下文协议（MCP）服务器故障分类体系，并通过从业者调查验证了其涵盖的五大类故障在实际中的普遍性，旨在为构建更稳健、可靠和安全的 AI 软件系统提供关键见解。

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

本文提出了 LTLGuard，一种结合约束生成与轻量级形式化一致性检查的模块化工具链，旨在利用资源高效的小型语言模型将非正式需求准确转化为无冲突的线性时序逻辑（LTL）规范。

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

本文提出了 CodeScout，一种通过轻量级预探索将模糊的用户请求转化为包含复现步骤、预期行为及探索提示的综合性问题陈述的上下文查询优化方法，该方法在不修改现有智能体架构的前提下，显著提升了其在 SWEBench-Verified 基准上的代码问题解决率。

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder 提出了一种基于强化学习的框架，通过将生成、反思与自修正的完整轨迹内化至模型权重中，使大语言模型能够在无需外部反馈或执行引擎的情况下实现自主代码调试，从而在多项基准测试中达到甚至超越 GPT-5.1 的性能，同时显著降低了推理计算开销。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

该论文提出了一种将大语言模型编程代理的原始执行轨迹转化为结构化、可解释洞察的系统性方法，通过结合领域特定的失败分类法、自动标注系统及混合解释生成器，显著提升了开发者（包括非技术人员）识别故障根因的速度与修复准确率。

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

该论文提出了 MCCom 框架，通过结合本地小模型与云端大模型、利用用户行为触发机制及两阶段投机解码策略，在显著降低代码补全延迟和云端计算成本的同时，有效提升了补全准确率。

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

本文提出了首个规范引导的差分测试框架 APIDiffer，通过结合规范引导的测试输入生成与大模型辅助的误报过滤，在以太坊客户端生态中自动检测出 72 个 API 不一致漏洞，显著提升了代码覆盖率并降低了误报率。

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

本文提出了一种利用自然语言处理和大语言模型来检测部分领域模型与文本规范之间语义对齐的方法，该方法能以接近完美的精度识别出约 78% 的模型元素是否对齐，从而支持建模工具提供实时反馈或进行离线质量评估。

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

该研究基于 2022 年 7 月收集的 1155 名开发者数据，确立了生成式 AI 普及前的 IDE 满意度基线，揭示工具选择自主权是满意度的核心预测因子，并指出了云 IDE 普及率低及高满意度下潜在的保留率差异等关键发现，为评估 AI 对软件开发的影响提供了量化基准。

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

该论文提出了一种基于 LINDDUN 的生成式 AI 隐私威胁建模框架，通过系统文献综述和案例研究扩展了原有威胁类型并新增 100 个示例，从而有效支持了生成式 AI 应用的全面隐私分析。

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

该论文提出了一种通过子进程隔离执行来改进 Pynguin 自动测试生成工具的方法，以解决 C 扩展导致的 Python 解释器崩溃问题，从而在包含 C 扩展的流行 Python 库中成功检测并复现了 32 个此前未知的故障。

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

该研究通过实证分析表明，调整深度学习模型的超参数不仅能显著影响其能耗，还能在保持性能的同时降低能源消耗，从而为实现绿色深度学习提供有效途径。

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

cs.SE