AgentOCR: Reimagining Agent History via Optical Self-Compression

AgentOCR is een framework dat de groeiende tekstuele geschiedenis van agenten omzet in compacte beelden met behulp van segment-optische caching en zelfcompressie, waardoor de token- en geheugenefficiëntie aanzienlijk wordt verbeterd zonder de prestaties te verlagen.

Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Probleem: De "Geheugenstroom" die verstikt

Stel je voor dat je een super slimme robot (een AI-agent) hebt die complexe taken moet uitvoeren, zoals het zoeken naar informatie op internet of het oplossen van puzzels in een virtueel huis. Om slim te zijn, moet deze robot zich herinneren wat hij al heeft gedaan en wat hij heeft gezien.

In de huidige wereld doet de robot dit door alle tekst die hij heeft gegenereerd en ontvangen, stap voor stap in zijn geheugen te stoppen.

  • Het probleem: Naarmate het gesprek langer duurt, wordt die tekstlijst enorm. Het is alsof je een boek schrijft, maar elke keer als je een nieuwe zin toevoegt, moet je het hele boek opnieuw lezen om te weten wat er staat.
  • De gevolgen: De robot wordt traag, het kost enorm veel rekenkracht (en geld), en hij raakt "verward" omdat zijn geheugen vol zit met oude tekst die hij niet meer kan verwerken.

💡 De Oplossing: AgentOCR (De "Foto-herinnering")

De auteurs van dit paper, AgentOCR, hebben een slimme oplossing bedacht: Waarom lezen we die lange tekst niet gewoon als een foto?

Stel je voor dat je in plaats van een lang dagboek te schrijven, elke dag een foto maakt van je dag.

  • Tekst vs. Foto: Een pagina tekst met 1000 woorden is lang en saai om te lezen. Maar als je diezelfde pagina als een foto ziet, neemt die foto veel minder ruimte in beslag in je hoofd, terwijl je nog steeds alle informatie kunt zien.
  • De truc: AgentOCR neemt de hele geschiedenis van de robot (alle vragen, antwoorden en zoekresultaten) en "tekent" dit om in één compacte afbeelding. De robot kijkt dan niet naar de tekst, maar naar de foto. Hierdoor vermindert de hoeveelheid informatie die de robot moet verwerken met meer dan de helft!

🚀 De Twee Slimme Trucs

Om dit systeem echt goed te laten werken, hebben ze twee extra slimme technieken toegevoegd:

1. De "Herinneringskast" (Segment Optical Caching)

Stel je voor dat je een fotoalbum maakt. Als je elke dag een nieuwe foto toevoegt, moet je niet elke dag het hele album opnieuw fotograferen.

  • Hoe het werkt: AgentOCR splitst de geschiedenis op in kleine stukjes (zoals losse foto's). Als een stukje tekst (bijvoorbeeld een veelvoorkomende zoekopdracht) al eerder is omgezet in een foto, slaat het systeem die foto op in een "kast".
  • Het voordeel: Als diezelfde tekst later weer terugkomt, pakt de robot gewoon de oude foto uit de kast in plaats van hem opnieuw te maken. Dit maakt het proces 20 keer sneller en bespaart veel ruimte.

2. De "Slimme Drukknop" (Agentic Self-Compression)

Soms heb je een heel gedetailleerde foto nodig (bijvoorbeeld om een klein woordje te lezen), en soms is een vage schets genoeg (als je alleen de hoofdpunten nodig hebt).

  • Hoe het werkt: De robot leert zelf te beslissen hoe "scherp" of "vaag" de foto moet zijn. Hij kan een knop draaien om de foto te verkleinen (compressie).
    • Is de taak moeilijk? Dan maakt hij de foto scherp (veel details, maar meer kosten).
    • Is het een simpele stap? Dan maakt hij de foto vaag (weinig details, maar heel goedkoop).
  • De leercurve: De robot wordt beloond als hij slim omgaat met deze knop: hij moet de taak succesvol afronden, maar zo weinig mogelijk "ruimte" gebruiken.

🏆 Wat is het resultaat?

De onderzoekers hebben dit getest op twee moeilijke taken:

  1. ALFWorld: Een robot die in een virtueel huis moet opruimen en voorwerpen moet vinden.
  2. Zoek-vragen: Een robot die op internet moet zoeken om complexe vragen te beantwoorden.

De resultaten zijn indrukwekkend:

  • De robot is even slim als de tekst-robot (hij lost 95% van de taken even goed op).
  • Maar hij gebruikt 50% tot 80% minder rekenkracht (tokens).
  • Het is alsof je een vrachtwagen vol boeken vervangt door een enkele, slimme tablet die precies dezelfde informatie bevat, maar veel lichter is om te dragen.

🎯 Conclusie in één zin

AgentOCR leert robots om hun lange, saaie tekstgeschiedenis om te zetten in compacte foto's, zodat ze sneller, goedkoper en net zo slim kunnen blijven werken, zelfs als ze heel lang bezig zijn.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →