Agentic Jackal: Live Execution and Semantic Value Grounding for Text-to-JQL

本文提出了首个基于实时执行的大规模文本转 JQL 基准"Jackal"及其配套的智能体框架"Agentic Jackal",通过结合 Jira MCP 服务器执行与语义检索工具 JiraAnchor,显著提升了大语言模型在解析模糊字段引用和实例特定值方面的准确率,并揭示了当前该任务的主要瓶颈在于语义歧义而非值解析。

原作者: Vishnu Murali, Anmol Gulati, Elias Lumer, Kevin Frank, Sindy Campagna, Vamse Kumar Subbiah

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让电脑更聪明地听懂人类语言,并去“翻找”特定数据库的故事。

我们可以把这篇论文想象成是在解决一个**“翻译官”和“图书管理员”**之间的配合问题。

1. 背景:为什么这很难?(翻译官的困境)

想象一下,你是一家大公司的老板,你想查一下公司里所有关于"2023 年那个红色项目”的“未完成”任务。

  • 你的语言(自然语言): “帮我看看 2023 年红色项目里还没做完的事。”
  • 电脑的语言(JQL): 这是一种非常严谨、像代码一样的查询语言。它必须精确地写成:project = "RedProject" AND status != "Done" AND created >= "2023-01-01"

问题出在哪?
以前的电脑(大语言模型)就像是一个才华横溢但有点“死脑筋”的翻译官

  • 如果你说得很清楚(比如直接说“红色项目”),它能翻译得很准。
  • 但如果你说得稍微模糊一点(比如“那个红色的项目”),或者你提到的版本号(比如"6.5 版”)在电脑里其实叫"6.5.0 Beta",这个翻译官就会瞎猜
  • 最糟糕的是,翻译官没有眼睛。它不知道公司里到底有哪些项目、哪些版本是真实存在的。它可能会编造一个不存在的"6.5.1 版”,导致查出来的结果是空的,但它自己还以为自己翻译对了。

2. 解决方案:Agentic Jackal(聪明的“侦探 + 图书管理员”组合)

为了解决这个问题,作者们发明了一个叫 Agentic Jackal 的新系统。我们可以把它想象成给那个“翻译官”配了两个超级助手:

助手 A:Jira Search(活体“试错”侦探)

  • 以前: 翻译官写完翻译稿,直接交给你。如果错了,你才发现。
  • 现在: 翻译官写完翻译稿后,先自己跑一遍
    • 如果查出来有结果,侦探说:“老板,这个翻译好像是对的!”
    • 如果查出来是空的,侦探说:“老板,查不到东西,可能是‘红色项目’这个名字不对,或者‘未完成’的状态定义错了,我再去改改。”
    • 如果报错,侦探说:“语法错了,我马上改。”
  • 比喻: 就像你写代码时,先自己运行一下,报错了就改,而不是等用户来投诉。

助手 B:JiraAnchor(精准的“图书管理员”)

  • 以前: 翻译官不知道公司里到底有哪些“组件”或“版本”。
  • 现在: 当翻译官听到“数据结构的任务”时,它不知道这对应哪个具体的组件名。这时候,图书管理员(JiraAnchor) 就出场了。
    • 它会立刻去公司的真实数据库里搜索:“谁的名字跟‘数据结构’最像?”
    • 它发现真实名字是"Core: Containers and Algorithms"。
    • 它把这个确切的名字告诉翻译官,翻译官再把它写进查询语句里。
  • 比喻: 就像你去图书馆找书,只说“找那本关于恐龙的书”,图书管理员不会瞎猜,而是直接去书架上把《恐龙大百科》拿给你,确保你拿到的就是那本真书。

3. 他们做了什么实验?(大考)

作者们建立了一个巨大的**“考试系统”**(叫 Jackal 基准),里面有 10 万道题目,都是把“人话”翻译成“电脑话”。他们找了 9 个最顶尖的 AI 模型来考试。

  • 单干模式(Naive): 让 AI 自己瞎猜,不许用助手。
    • 结果: 遇到稍微难一点的题目(比如话没说全),正确率只有 43% 左右。就像让一个没带地图的导游带路,很容易迷路。
  • 特工模式(Agentic Jackal): 让 AI 带上“侦探”和“图书管理员”。
    • 结果: 正确率提升到了 64% 左右。对于最难猜的题目,提升更是明显。
    • 特别亮点: 在“组件”这种需要精确名称的领域,没有图书管理员时,正确率只有 16.9%(几乎全错);有了图书管理员,正确率飙升到 66.2%

4. 发现了什么新问题?(为什么还没完美?)

虽然进步很大,但作者发现,剩下的错误不是因为“找不到书”,而是因为“话太含糊”

  • 例子: 用户说“找 Bug"。
    • 是指“任务类型是 Bug"?
    • 还是指“在‘摘要’里搜索包含'bug'这个词的任务”?
  • 结论: 这种语义上的歧义(到底想表达什么),是目前的 AI 和工具都很难解决的。就像你问朋友“我要那个红色的”,朋友不知道你是指“红色的苹果”还是“红色的车”。这时候,工具再厉害也没用,需要人来澄清。

5. 代价是什么?(时间 vs. 金钱)

  • 代价: 这种“先试错、再查书”的方法,比直接瞎猜要慢很多(大概慢了 7 倍),用的“算力”(Token)也多了很多(大概 15 倍)。
  • 权衡: 如果你只是随便问问,直接猜可能就够了;但如果你要查重要的商业数据,多花点时间让 AI 多跑几遍、多查几次,确保结果绝对准确,是非常值得的。

总结

这篇论文的核心思想是:不要指望 AI 能一次性猜对所有的复杂指令。

最好的办法是给 AI 装上**“手脚”(让它能去数据库里真正跑一下查询)和“眼睛”**(让它能去查真实的列表)。虽然这样做会让它变慢一点,但它能极大地减少“瞎编乱造”的错误,特别是在处理那些只有公司内部才知道的具体名称(如版本号、组件名)时,效果立竿见影。

这就好比:与其让一个天才翻译官在房间里凭空想象,不如让他拿着对讲机,一边翻译一边问现场的工作人员:“你们这儿真的有这个零件吗?”

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →