AgentOCR: Reimagining Agent History via Optical Self-Compression

本文提出了 AgentOCR 框架,通过将多轮交互历史压缩为紧凑的视觉图像并结合分段光学缓存与代理自压缩机制,在显著降低 Token 消耗和内存占用的同时,保持了与纯文本代理相当的任务成功率。

Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AgentOCR 的新方法,它旨在解决人工智能(AI)代理在长期任务中“记性太好反而变笨”的问题。

为了让你更容易理解,我们可以把 AI 代理想象成一个正在执行复杂任务的超级侦探

1. 核心问题:侦探的“记事本”太厚了

想象一下,这位侦探(AI)正在处理一个长达几十页的复杂案件。他需要记住之前所有的线索、对话和行动(观察和行动的历史)。

  • 传统做法:侦探把每一句话、每一个字都原封不动地写在一张巨大的长卷纸上。随着时间推移,这张纸越来越长,最后甚至拖到了房间外面。
  • 后果
    1. 读不完:侦探的大脑(模型)每次思考时,都要从头读到尾,速度极慢,甚至读不完(超出 Token 限制)。
    2. 太费钱:读这么长的纸,需要消耗大量的墨水(计算资源)和时间(推理延迟)。

2. 解决方案:AgentOCR 的“照片记忆法”

AgentOCR 提出了一种全新的记笔记方式:把文字变成图片

核心创意一:把文字“拍”成照片(光学压缩)

  • 比喻:想象侦探不再写长篇大论的文字,而是把之前的对话和线索直接打印成一张照片
  • 原理:在 AI 的世界里,一张包含大量文字的图片,其占用的“空间”(Token 数量)比纯文字要小得多。就像把 100 页的书拍成一张高清照片,信息量没变,但体积缩小了 10 倍。
  • 效果:侦探现在只需要看一张紧凑的照片,就能回忆起之前的所有细节,大大减轻了大脑负担。

核心创意二:智能缓存(只拍新东西)

  • 问题:如果侦探每走一步都要把整本相册重新拍一遍,那还是很慢。
  • 比喻:AgentOCR 引入了一个**“智能相册”**。
    • 侦探把历史分成一个个小片段(比如“昨天查的档案”、“刚才的对话”)。
    • 如果某个片段以前出现过(比如重复的搜索词),系统就直接从相册里调取旧照片,不再重新拍摄。
    • 只有出现新内容时,才拍新照片。
  • 效果:这就像你整理文件时,重复的文件直接引用,不再复印。这让处理速度提升了 20 倍 以上。

核心创意三:侦探学会“自己压缩”(智能调节)

  • 问题:照片拍得太清楚(高清晰度)虽然信息全,但文件大;拍得太模糊(高压缩)虽然文件小,但可能看不清关键细节。怎么平衡?
  • 比喻:AgentOCR 让侦探自己决定下一张照片拍多清楚。
    • 当侦探在思考简单任务(比如“去拿个杯子”)时,它会自动把照片压缩得很厉害(模糊一点也没关系),节省资源。
    • 当侦探遇到关键线索(比如“寻找关键证据”)时,它会自动提高清晰度,确保不错过任何细节。
  • 训练方式:通过一种特殊的“奖励机制”,如果侦探既能完成任务,又聪明地节省了资源,就会得到奖励。久而久之,它就学会了在“省钱”和“办事”之间找到完美的平衡点。

3. 实验结果:既快又准

研究人员在两个复杂的测试场景(一个是模拟家庭任务的 ALFWorld,一个是需要大量搜索的问答任务)中测试了 AgentOCR:

  • 能力没丢:侦探的破案成功率依然保持在 95% 以上,和传统的“文字记事本”方法一样强。
  • 效率大增:它消耗的“墨水”(Token 数量)减少了 50% 到 80%
  • 速度飞快:因为用了“智能相册”缓存,处理速度提升了 20 倍

总结

AgentOCR 就像是给 AI 侦探换了一套**“视觉化记忆系统”。它不再死板地堆积文字,而是把历史变成紧凑的图片,并且学会了“只拍新东西”“按需调节清晰度”**。

这让 AI 在处理超长、复杂的任务时,既记性好,又跑得快,还省资源。这为未来让 AI 像人类一样进行长时间的自主工作铺平了道路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →