Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

本文提出了名为 Agent Banana 的分层代理规划 - 执行框架,通过引入上下文折叠和图像层分解机制,解决了专业工作流中过度编辑、多轮交互失真及超高分辨率评估缺失等挑战,并在其构建的 4K 高清基准 HDD-Bench 上实现了卓越的多轮一致性与背景保真度。

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一位拥有魔法画笔的超级修图师,但你的助手(现在的 AI)有点“笨拙”。

如果你告诉它:“把那个瓶子变成红色的,但别动旁边的水。”
现在的 AI 可能会说:“好的!”然后它把整张图重新画了一遍。结果瓶子是红了,但旁边的水也变了颜色,背景里的云朵甚至飘到了奇怪的位置,而且原本高清的 4K 画质变得像马赛克一样模糊。

这就是目前大多数 AI 修图工具面临的三大痛点

  1. 用力过猛:你想改一点点,它把整张图都改了。
  2. 记性不好:如果你让它分三步走(先改 A,再改 B,最后改 C),到了第三步,它可能已经忘了第一步改了什么,或者把之前的成果搞乱了。
  3. 画质缩水:为了处理图片,它先把高清大图缩小成小图,改完再放大,导致细节全丢。

为了解决这些问题,论文作者们推出了一个名为 "Agent Banana"(香蕉特工) 的新系统。你可以把它想象成一位拥有“上帝视角”和“精细手术刀”的顶级修图大师

🍌 Agent Banana 是怎么工作的?

它不像普通 AI 那样“一股脑”地重画整张图,而是采用了两个核心绝招:

1. “折叠记忆”大法 (Context Folding) —— 像整理行李箱一样整理思路

想象你要去长途旅行(进行多次复杂的修图对话)。

  • 普通 AI:把每一天的行程、每一顿饭、每一句话都原封不动地背在脑子里。走到第 10 天,脑子就炸了,记不住第 1 天说了什么。
  • Agent Banana:它有一个智能整理术。它会把之前的对话“折叠”起来。
    • 它只记住核心结论(比如:“瓶子现在是红色的”)。
    • 它把中间那些试错、纠结的过程(比如:“我试了红色不行,又试了橙色,最后才定红色”)打包扔掉。
    • 效果:无论你们聊了多少轮,它都能清晰地记住“现在的状态是什么”,并且随时可以一键回退到上一步,就像玩游戏的“存档读档”一样安全。

2. “图层手术”技术 (Image Layer Decomposition) —— 像做微雕,而不是重画整幅画

想象你在一张巨大的 4K 高清油画上工作。

  • 普通 AI:每次修改,它都把整幅画撕下来,重新画一遍。哪怕你只改了一个苹果,背景里的山和树也会被重新画一遍,导致山变模糊了,树变歪了。
  • Agent Banana:它拿着一把精密的激光手术刀
    • 它只把你要改的那个“苹果”从画布上切下来(或者在逻辑上隔离出来),放在一个独立的小工作台上。
    • 它只在这个小工作台上修改苹果。
    • 改完后,它再把苹果完美地贴回原处。
    • 效果:背景里的山和树纹丝不动,依然保持原本的高清细节。这就是为什么它能处理 4K 甚至更高清的图片,而不会让画质变渣。

🛠️ 它的“工具箱”里有什么?

Agent Banana 把复杂的修图任务拆解成了五个简单的原子动作,就像乐高积木一样:

  • 替换 (Replace):把旧物体换成新的。
  • 移除 (Remove):把物体擦掉,自动补全背景。
  • 添加 (Add):在指定位置加个新东西。
  • 调整 (Adjust):只改颜色或风格,不动形状。
  • 撤销 (Undo):后悔了?瞬间回到上一秒。

🏆 为什么它这么厉害?(HDD-Bench 测试)

为了证明它不是“嘴上说说”,作者们造了一个超高清、多轮对话的考试系统(HDD-Bench)

  • 这个考试专门考“高清”(4K 画质)和“多轮对话”(比如:先换个衣服,再换个发型,最后把背景变暗)。
  • 结果:Agent Banana 在保持画质不下降、背景不乱动、多轮指令不遗忘方面,完胜其他所有现有的 AI 模型。

💡 总结

Agent Banana 就像是把修图从“用大锤砸墙”变成了“用手术刀做微创”。

  • 听得懂人话,能把模糊的指令拆解成一步步清晰的计划。
  • 记得住前文,不管聊多久都不会“断片”。
  • 只改该改的,绝不破坏原本精美的背景。

这项技术让 AI 修图真正从“玩具”变成了专业摄影师和设计师可以信赖的助手,能够处理真正的 4K 高清大片,而且怎么改都不会把原图搞坏。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →