Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本文介绍了 EigenData,一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台,该平台在修复 Berkeley 函数调用排行榜(BFCL-V3)基准测试的同时,引入了基于数据库状态正确性的结果感知评估协议,显著提升了模型排名与人类对功能正确性判断的相关性。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

本文提出了 CodeScout,一种通过轻量级预探索将模糊的用户请求转化为包含复现步骤、预期行为及探索提示的综合性问题陈述的上下文查询优化方法,该方法在不修改现有智能体架构的前提下,显著提升了其在 SWEBench-Verified 基准上的代码问题解决率。

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder 提出了一种基于强化学习的框架,通过将生成、反思与自修正的完整轨迹内化至模型权重中,使大语言模型能够在无需外部反馈或执行引擎的情况下实现自主代码调试,从而在多项基准测试中达到甚至超越 GPT-5.1 的性能,同时显著降低了推理计算开销。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

本文提出了首个规范引导的差分测试框架 APIDiffer,通过结合规范引导的测试输入生成与大模型辅助的误报过滤,在以太坊客户端生态中自动检测出 72 个 API 不一致漏洞,显著提升了代码覆盖率并降低了误报率。

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs