AgentOCR: Reimagining Agent History via Optical Self-Compression

Das Paper stellt AgentOCR vor, ein Framework, das durch die Umwandlung von Agenten-Interaktionsverläufen in kompakte Bilder, segmentbasiertes optisches Caching und eine adaptive selbstgesteuerte Kompression die Token-Nutzung und den Speicherbedarf signifikant reduziert, ohne dabei die Leistungsfähigkeit der Agenten zu beeinträchtigen.

Lang Feng, Fuchao Yang, Feng Chen, Xin Cheng, Haiyang Xu, Zhenglin Wan, Ming Yan, Bo An

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas vergesslichen Assistenten, der dir bei komplexen Aufgaben hilft – sei es beim Aufräumen eines virtuellen Hauses oder beim Recherchieren von Informationen im Internet.

Das Problem ist: Je länger die Aufgabe dauert, desto mehr muss sich dieser Assistent merken. Er schreibt sich eine riesige Liste von allem, was er gesehen und getan hat, auf. Irgendwann ist diese Liste so lang, dass sie in sein Gedächtnis (den "Kontext") nicht mehr passt, oder das Nachschlagen in dieser Liste so lange dauert, dass er kaum noch Zeit zum Denken hat. Das ist wie ein Bibliothekar, der für jede neue Frage den gesamten Inhalt aller Bücher, die er je gelesen hat, neu durchblättern muss, bevor er antworten kann.

AgentOCR ist eine clevere Lösung für genau dieses Problem. Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Bildern:

1. Der Trick: Aus Text ein Bild machen (Optische Selbstkompression)

Statt den Assistenten eine endlose Textliste lesen zu lassen, macht AgentOCR etwas Geniales: Es verwandelt die ganze Geschichte in ein einziges, kompaktes Bild.

  • Die Analogie: Stell dir vor, du hast einen Stapel von 100 Seiten Text. Das ist schwer zu lesen und viel Platz. AgentOCR nimmt diesen Stapel, druckt ihn auf ein einziges, kleines Foto und gibt dem Assistenten nur dieses Foto.
  • Der Vorteil: Ein Bild enthält viel mehr Information auf weniger "Platz" (weniger Tokens) als reiner Text. Der Assistent muss nicht mehr 100 Seiten lesen, sondern schaut sich einfach ein Bild an. Das spart enorm viel Zeit und Rechenleistung.

2. Der intelligente Koffer (Segment-Optisches Caching)

Aber was passiert, wenn die Aufgabe noch länger wird und das Bild immer größer wird? Man kann nicht unendlich große Bilder speichern.

Hier kommt der zweite Trick ins Spiel: Der intelligente Koffer.
Statt das ganze Bild jedes Mal neu zu malen, zerlegt AgentOCR die Geschichte in kleine Abschnitte (wie einzelne Sätze oder Handlungen).

  • Die Analogie: Stell dir vor, du packst für eine lange Reise. Wenn du schon einmal einen roten Pullover gepackt hast, musst du ihn nicht jedes Mal neu kaufen und neu einpacken, wenn du ihn wieder brauchst. Du nimmst ihn einfach aus dem Koffer.
  • Im System: Wenn der Assistent eine Handlung wiederholt (z. B. "Suche nach Wetter" oder "Öffne Tür"), erkennt das System: "Hey, das haben wir schon mal als Bildabschnitt gespeichert!" Es zieht diesen alten Abschnitt einfach aus dem "Koffer" (dem Cache) und klebt ihn an das neue Bild. Es muss also nur die neuen Teile malen, nicht die ganzen alten. Das macht den Prozess unglaublich schnell (bis zu 20-mal schneller!).

3. Der selbstbewusste Assistent (Selbstkompression)

Das Coolste an AgentOCR ist, dass der Assistent lernt, selbst zu entscheiden, wie detailliert er sein soll.

  • Die Analogie: Stell dir vor, du malst eine Skizze. Für eine einfache Aufgabe (z. B. "Hol mir einen Apfel") reicht eine schnelle, grobe Skizze. Aber für eine schwierige Aufgabe (z. B. "Löse ein komplexes Mathe-Problem") musst du sehr genau und detailliert malen.
  • Im System: Der Assistent lernt durch Training (Reinforcement Learning), wann er das Bild "herunterskalieren" darf (weniger Details, weniger Speicherplatz) und wann er es scharf halten muss. Er sagt quasi: "Für diesen Schritt reicht ein kleines, unscharfes Bild, aber für den nächsten brauche ich High-Definition." So spart er Ressourcen, ohne wichtige Details zu verlieren.

Das Ergebnis

Durch diese Kombination aus Bildern statt Text, intelligentem Wiederverwenden von Teilen und selbstgesteuertem Detailgrad erreicht AgentOCR zwei Dinge:

  1. Es ist fast genauso gut wie ein Assistent, der nur mit Text arbeitet (über 95 % der Leistung).
  2. Es verbraucht aber mehr als die Hälfte weniger Ressourcen (Speicher und Rechenzeit).

Zusammenfassend: AgentOCR ist wie ein genialer Bibliothekar, der statt endloser Bücherlisten ein einziges, perfekt organisiertes Fotoalbum nutzt, in dem er alte Bilder clever wiederverwendet und selbst entscheidet, wie scharf er malen muss, um die Aufgabe schnell und effizient zu erledigen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →