Agent-First Tool API: A Semantic Interface Paradigm for Enterprise AI Agent Systems

本文提出并验证了“智能体优先工具 API"范式,该范式以语义六动词协议和结构化决策支持元数据取代传统面向人类的 CRUD 接口,从而显著提升企业生产系统中自主智能体的任务成功率与错误恢复能力。

原作者: Kai Pan

发布于 2026-05-12✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Kai Pan

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正试图向一位非常聪明但略显字面化的机器人助手发出复杂的指令。

旧方法("CRUD"问题):
目前,大多数企业软件(如银行或商店使用的系统)都是为人类设计的。如果你想让人类“找到上个月开业的市中心分店”,他们可以查看地图、阅读标识并自行判断。

但如果你用当今标准的软件接口让机器人执行此任务,就好比要求机器人填写一份税务表格,它必须在开始之前就知道该分店精确的 10 位 ID 号码。如果机器人猜错了 ID,系统只会返回“错误 404"并停止。机器人不得不重新猜测,再次收到错误,最终要么放弃,要么向人类求助。这就是论文中所称的"CRUD"不匹配:软件期望精确的 ID 和准确的数据,而人工智能则从一个模糊的自然语言目标开始。

新方法(以代理优先的工具 API):
作者提出了一种专门针对人工智能代理设计这些工具的新方法。他们不再使用僵化的表单,而是将工具视为一位乐于助人的真人助手,懂得如何处理歧义。

以下是他们的“六动词”系统如何运作,以旅行代理为例进行类比:

  1. 语义搜索(“你是什么意思?”阶段):
    • 旧方法: 你必须说“预订飞往肯尼迪机场(JFK)的航班”。
    • 新方法: 你说“预订飞往时代广场附近机场的航班”。工具不会惊慌;它会搜索数据库,找到时代广场附近的三个机场,然后说:“我找到了肯尼迪机场(JFK)、拉瓜迪亚机场和纽瓦克机场。你指的是哪一个?”
  2. 解析候选项(“澄清”阶段):
    • 人工智能从列表中选出正确的那个(肯尼迪机场)。工具确认道:“明白了,肯尼迪机场。”
  3. 预览操作(“试运行”阶段):
    • 在真正预订机票(这涉及费用)之前,工具会展示一个草稿:“我即将执行的操作如下:预订一张飞往肯尼迪机场、价格为 500 美元的航班。这样可以吗?”这能在错误发生前加以预防。
  4. 执行操作(“执行”阶段):
    • 一旦人工智能(或人类经理)说“是”,工具就会实际预订机票。
  5. 验证结果(“成功了吗?”阶段):
    • 工具立即检查自己的工作:“我刚刚预订了机票。让我再次核对数据库,以确保确认号是真实的。”
  6. 从错误中恢复(“B 计划”阶段):
    • 如果出现问题(例如航班已售罄),工具不会直接崩溃。它会说:“该航班已满,但这里有三个其他可行的航班。我们应该尝试哪一个?”

安全网(治理):
论文还引入了一套严格的“安保”系统。

  • 双层权限: 系统会检查两件事:“该人工智能是否有执行此任务的职位头衔?”(能力)以及“该人工智能是否被允许访问这家特定商店的数据?”(范围)。
  • 动态风险: 如果人工智能尝试执行小操作(如查询机票),系统会直接放行。如果它尝试执行大操作(如删除 500 条记录或更改整个品牌的价格),系统会自动暂停,并在继续之前请求人类经理批准。

结果:
作者在包含 85 种不同工具(如管理工作订单、培训员工或维修设备)的真实世界系统中测试了该方法。

  • 成功率: 新系统解决了 88% 的任务,而旧系统仅解决了 64%。
  • 更少的人类协助: 新系统仅需 6% 的时间需要人工干预,而旧系统为 22%。
  • 更少的错误: 由于工具帮助人工智能先找到正确的 ID,人工智能产生的“幻觉”(猜错 ID)要少得多。

权衡:
新系统在每个单独步骤上需要多一点时间,并消耗更多的“计算能力”(Token),因为它执行了所有这些额外的检查(搜索、预览、验证)。然而,由于它失败得更少,且不会陷入猜测循环,完成整个任务的时间实际上更快,可靠性也更高。

总结:
该论文认为,要让人工智能代理在企业中真正发挥作用,我们不能仅仅赋予它们与人类相同的工具。我们需要重新设计这些工具,使其具备对话能力、自我修正能力和安全意识,将人工智能从“盲目猜测者”转变为“受监督的专业人士”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →