EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本文介绍了 EigenData,一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台,该平台在修复 Berkeley 函数调用排行榜(BFCL-V3)基准测试的同时,引入了基于数据库状态正确性的结果感知评估协议,显著提升了模型排名与人类对功能正确性判断的相关性。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EigenData 的全新平台,它的核心使命是解决人工智能(AI)在“调用工具”时面临的一个大难题:缺乏高质量、真实可靠的训练数据

为了让你更容易理解,我们可以把整个 AI 世界想象成一个巨大的“超级管家”培训学院

1. 背景:为什么我们需要 EigenData?

想象一下,你要培训一个超级管家(也就是现在的 AI 大模型),让他学会帮你订机票、查天气、或者管理银行账户。

  • 以前的做法:主要靠人类老师(标注员)手把手教。老师要写剧本、设计场景、还要检查管家做得对不对。这就像请了成千上万个老师,又慢、又贵,而且容易出错(比如老师自己记错了航班时间,或者剧本逻辑不通)。
  • 现在的痛点:现有的很多“考试题目”(基准测试)里充满了错误。比如题目说“把票号填成整数”,但数据库里存的其实是“字符串”。结果,管家明明做对了,却因为题目本身有 bug 被判错。这导致我们不知道哪个管家真的厉害,哪个只是在“死记硬背”题目。

2. EigenData 是什么?

EigenData 就像是一个“全自动、会自我进化的超级培训工厂”。

它不再依赖人类老师,而是由三个专门的 AI 特工小组和一个总指挥组成,它们分工合作,自己造环境、自己写代码、自己出题、自己改错。

核心角色介绍:

  • 总指挥 (EigenCore)

    • 角色:就像工厂的厂长
    • 工作:你告诉它“我要培训一个订酒店的管家”,它就把任务拆解,分派给下面三个小组。如果哪个环节出了问题,它负责协调大家回头修正,而不是从头再来。
  • 第一组:数据库特工 (DatabaseAgent) —— 造“世界”的

    • 角色:就像建筑设计师和道具师
    • 工作:在管家开始工作前,必须先有一个真实的“世界”。比如订酒店,世界里有房间、价格、客人信息。这组特工负责生成这些真实、合理且没有逻辑漏洞的数据库(比如确保没有“超售”的房间,或者“明天”的机票不会比“今天”便宜得离谱)。
  • 第二组:代码特工 (CodingAgent) —— 造“工具”的

    • 角色:就像机械师和质检员
    • 工作:有了数据库,还得有能操作数据库的“工具”(API 接口)。这组特工负责编写这些工具代码,并且疯狂地自我测试
    • 绝招:它有一个“试错循环”。写完代码 -> 自己出题考自己 -> 发现 bug -> 自动修 bug -> 再考。直到代码完美无缺,才交给下一组。
  • 第三组:数据特工 (DataAgent) —— 造“考题”和“剧本”的

    • 角色:就像编剧和考官
    • 工作:利用上面造好的“世界”和“工具”,生成成千上万条真实的对话剧本(比如:用户说“我想订个房”,管家怎么一步步查、怎么确认、怎么出错再重试)。
    • 进化:它不仅能出题,还能自我进化。它会先试做一小批题,让“考官”(Judge Agent)挑刺,然后自动优化出题的提示词,确保题目既难又合理,最后再大规模生成。

3. 这个平台做了什么大新闻?(BFCL 案例)

论文中,EigenData 被用来审计和修复一个著名的 AI 考试榜单——BFCL(伯克利函数调用排行榜)

  • 发现问题:EigenData 像侦探一样,把 BFCL 的 200 道多步骤题目全过了一遍,结果发现71.5% 的题目都有问题
    • 有的题目描述和实际代码对不上(Schema 错误)。
    • 有的题目里的“工具”本身就有 Bug,导致管家做对了也被判错(Implementation 错误)。
    • 有的“标准答案”本身就是错的(Trajectory 错误)。
  • 自动修复:EigenData 没有让人类去改,而是自动把这三个小组调动起来:
    • 代码特工修好了有 Bug 的工具。
    • 数据特工改写了错误的标准答案。
    • 总指挥确保所有修改都互相匹配。
  • 结果惊人
    • 修复后的榜单,AI 的排名发生了大洗牌
    • 有些在旧榜单上排名靠前的 AI,其实是因为“猜对了出题人的错误”才得分的;修复后,它们的真实能力暴露了,排名下降。
    • 有些在旧榜单上排名靠后的 AI,其实是因为题目太坑才失分的;修复后,它们的能力得到了公正的体现,排名上升。
    • 最重要的是:修复后的榜单,其排名结果和人类专家的直观判断高度一致。

4. 核心创新点:不看“过程”,只看“结果”

以前的考试,考官会拿着标准答案逐字逐句比对:“管家,你第一步必须调用 A 函数,第二步必须调用 B 函数,少一个都不行。”
EigenData 引入了**“结果导向”**的评估:

  • 比喻:以前是看管家是不是按“说明书”走的;现在是看**“最后房间订到了没有?”**
  • 只要管家最终把房间订好了(数据库状态正确),哪怕它用的方法和你预想的不一样,也是满分。这更符合现实世界的需求。

总结

EigenData 就像是一个“自我进化的 AI 训练学院”

它不再依赖昂贵且容易出错的人类老师,而是通过三个 AI 特工小组(造世界、造工具、出考题)的紧密配合,自动生产出高质量、无逻辑漏洞的训练数据,并能自动发现并修复现有考试中的错误。

它的出现,让我们能更公平、真实地评估 AI 到底有没有学会“干活”,而不是看它会不会“背题”。这对于未来让 AI 真正走进我们的生活(如自动订票、自动理财、自动客服)至关重要。