Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。

Chaoyuan Peng, Lei Wu, Yajin ZhouThu, 12 Ma💻 cs

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

本文提出了名为 SPARK 的框架,通过结合中性场景锚点、利用视听关联先验的潜在听觉触发词以及风格调节器,构建看似无害的提示词以协同诱导文本生成视频(T2V)模型绕过安全防御,从而生成语义违规的视频内容。

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong LiuMon, 09 Ma💻 cs

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

该论文提出了“遍历即策略”(Traversal-as-Policy)框架,通过将沙盒执行日志蒸馏为可执行的门控行为树(GBT),将控制策略从隐式生成转变为显式遍历,从而在 OpenHands 基准测试中显著提升了智能体的任务成功率、安全性并降低了成本。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI