AgentOCR: Reimagining Agent History via Optical Self-Compression

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas vergesslichen Assistenten, der dir bei komplexen Aufgaben hilft – sei es beim Aufräumen eines virtuellen Hauses oder beim Recherchieren von Informationen im Internet.

Das Problem ist: Je länger die Aufgabe dauert, desto mehr muss sich dieser Assistent merken. Er schreibt sich eine riesige Liste von allem, was er gesehen und getan hat, auf. Irgendwann ist diese Liste so lang, dass sie in sein Gedächtnis (den "Kontext") nicht mehr passt, oder das Nachschlagen in dieser Liste so lange dauert, dass er kaum noch Zeit zum Denken hat. Das ist wie ein Bibliothekar, der für jede neue Frage den gesamten Inhalt aller Bücher, die er je gelesen hat, neu durchblättern muss, bevor er antworten kann.

AgentOCR ist eine clevere Lösung für genau dieses Problem. Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Bildern:

1. Der Trick: Aus Text ein Bild machen (Optische Selbstkompression)

Statt den Assistenten eine endlose Textliste lesen zu lassen, macht AgentOCR etwas Geniales: Es verwandelt die ganze Geschichte in ein einziges, kompaktes Bild.

Die Analogie: Stell dir vor, du hast einen Stapel von 100 Seiten Text. Das ist schwer zu lesen und viel Platz. AgentOCR nimmt diesen Stapel, druckt ihn auf ein einziges, kleines Foto und gibt dem Assistenten nur dieses Foto.
Der Vorteil: Ein Bild enthält viel mehr Information auf weniger "Platz" (weniger Tokens) als reiner Text. Der Assistent muss nicht mehr 100 Seiten lesen, sondern schaut sich einfach ein Bild an. Das spart enorm viel Zeit und Rechenleistung.

2. Der intelligente Koffer (Segment-Optisches Caching)

Aber was passiert, wenn die Aufgabe noch länger wird und das Bild immer größer wird? Man kann nicht unendlich große Bilder speichern.

Hier kommt der zweite Trick ins Spiel: Der intelligente Koffer.
Statt das ganze Bild jedes Mal neu zu malen, zerlegt AgentOCR die Geschichte in kleine Abschnitte (wie einzelne Sätze oder Handlungen).

Die Analogie: Stell dir vor, du packst für eine lange Reise. Wenn du schon einmal einen roten Pullover gepackt hast, musst du ihn nicht jedes Mal neu kaufen und neu einpacken, wenn du ihn wieder brauchst. Du nimmst ihn einfach aus dem Koffer.
Im System: Wenn der Assistent eine Handlung wiederholt (z. B. "Suche nach Wetter" oder "Öffne Tür"), erkennt das System: "Hey, das haben wir schon mal als Bildabschnitt gespeichert!" Es zieht diesen alten Abschnitt einfach aus dem "Koffer" (dem Cache) und klebt ihn an das neue Bild. Es muss also nur die neuen Teile malen, nicht die ganzen alten. Das macht den Prozess unglaublich schnell (bis zu 20-mal schneller!).

3. Der selbstbewusste Assistent (Selbstkompression)

Das Coolste an AgentOCR ist, dass der Assistent lernt, selbst zu entscheiden, wie detailliert er sein soll.

Die Analogie: Stell dir vor, du malst eine Skizze. Für eine einfache Aufgabe (z. B. "Hol mir einen Apfel") reicht eine schnelle, grobe Skizze. Aber für eine schwierige Aufgabe (z. B. "Löse ein komplexes Mathe-Problem") musst du sehr genau und detailliert malen.
Im System: Der Assistent lernt durch Training (Reinforcement Learning), wann er das Bild "herunterskalieren" darf (weniger Details, weniger Speicherplatz) und wann er es scharf halten muss. Er sagt quasi: "Für diesen Schritt reicht ein kleines, unscharfes Bild, aber für den nächsten brauche ich High-Definition." So spart er Ressourcen, ohne wichtige Details zu verlieren.

Das Ergebnis

Durch diese Kombination aus Bildern statt Text, intelligentem Wiederverwenden von Teilen und selbstgesteuertem Detailgrad erreicht AgentOCR zwei Dinge:

Es ist fast genauso gut wie ein Assistent, der nur mit Text arbeitet (über 95 % der Leistung).
Es verbraucht aber mehr als die Hälfte weniger Ressourcen (Speicher und Rechenzeit).

Zusammenfassend: AgentOCR ist wie ein genialer Bibliothekar, der statt endloser Bücherlisten ein einziges, perfekt organisiertes Fotoalbum nutzt, in dem er alte Bilder clever wiederverwendet und selbst entscheidet, wie scharf er malen muss, um die Aufgabe schnell und effizient zu erledigen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die fortschreitenden Fähigkeiten von Large Language Models (LLMs) ermöglichen komplexe Agentensysteme, die durch Reinforcement Learning (RL) über Multi-Turn-Interaktionen trainiert werden. Ein zentrales Hindernis für den praktischen Einsatz dieser Systeme ist jedoch der rapide wachsende Textkontext.

Token-Budget und Kosten: Bei langen Interaktionssequenzen akkumulieren sich Beobachtungen und Aktionen zu einem massiven Textstrom. Dies sprengt oft das Kontextfenster aktueller Modelle und führt zu prohibitiv hohen Inferenzkosten sowie Latenzzeiten aufgrund des teuren Attention-Mechanismus (KV-Cache-Management).
Ineffizienz: Herkömmliche Ansätze speichern die gesamte Historie als Text, was eine hohe Token-Dichte und redundante Verarbeitung mit sich bringt, insbesondere wenn sich Umgebungsbeobachtungen wiederholen.

2. Methodik: AgentOCR

Das Paper stellt AgentOCR vor, ein Framework, das die Historie eines Agenten nicht als Textkette, sondern als kompakte, visuelle Darstellung (Bild) behandelt. Die Kernidee nutzt die höhere Informationsdichte visueller Tokens im Vergleich zu Text.

Das Framework basiert auf drei Hauptkomponenten:

A. Optische Speicherkodierung (Optical Memory Encoding)

Statt roher Textprotokolle wird die gesamte Interaktionshistorie (Beobachtungen und Aktionen) durch einen deterministischen Renderer in ein RGB-Bild umgewandelt. Der Agent erhält dieses Bild als Eingabe für seine Entscheidungsfindung (Policy), anstatt den Text direkt zu verarbeiten. Dies reduziert die Anzahl der zu verarbeitenden Tokens erheblich.

B. Segment-Optisches Caching (Segment Optical Caching)

Um die Latenz beim Rendern langer Historien zu minimieren, führt AgentOCR ein Caching-System auf Segmentebene ein:

Segmentierung: Die Historie wird in unabhängige Textsegmente zerlegt.
Hash-basiertes Caching: Jedes Segment wird gehasht. Wenn ein Segment bereits gerendert wurde, wird das gespeicherte Bild aus dem Cache wiederverwendet, anstatt es neu zu rendern.
Effizienz: Dies eliminiert redundantes Rendern von sich wiederholenden Inhalten (z. B. Standard-Tool-Antworten) und beschleunigt den Prozess signifikant.

C. Agentische Selbstkompression (Agentic Self-Compression)

Ein entscheidender Innovationsschritt ist die Fähigkeit des Agenten, die Kompressionsrate aktiv zu steuern:

Dynamische Auflösung: Der Agent gibt in jedem Schritt einen Kompressionsfaktor ( $c_t$ ) aus, der die räumliche Auflösung des renderten Bildes steuert (Downsampling).
Kompromiss-Optimierung: Der Agent lernt durch RL, wann eine hohe Auflösung (für komplexe Textanalyse) und wann eine starke Kompression (für einfache Schritte) notwendig ist.
Belohnungsfunktion: Eine „kompressionsbewusste Belohnung" ( $r_{comp}$ ) wird nur bei erfolgreicher Aufgabenlösung gewährt. Sie belohnt höhere Kompression (weniger Tokens), verhindert aber, dass der Agent die Qualität zu stark opfert, um die Aufgabe zu lösen. Ein intermittierendes Reinforcement-Schema verhindert gieriges Verhalten.

3. Wichtige Beiträge

Paradigmenwechsel: Die Umwandlung von Agenten-Historien von Text zu visuellen Tokens als primäres Speichermedium für lange Kontexte.
Segment-Caching: Ein Mechanismus, der das Rendern von Historien um den Faktor 20 beschleunigt und den Speicherverbrauch durch Wiederverwendung von Segmenten reduziert.
Selbstkompression: Ein RL-gesteuerter Mechanismus, der es dem Agenten erlaubt, die Informationsdichte dynamisch an den aktuellen Bedarf anzupassen, ohne die Aufgabenleistung zu gefährden.
Skalierbarkeit: Das System ist algorithmusagnostisch (hier mit GRPO demonstriert) und kompatibel mit bestehenden Vision-Language-Modellen (VLMs).

4. Ergebnisse

Die Methode wurde auf zwei anspruchsvollen Benchmarks evaluiert: ALFWorld (embodied tasks) und Search-based QA (wichtige Textrecherche).

Leistungsqualität: AgentOCR behält über 95 % der Leistungsfähigkeit textbasierter Agenten bei (gemessen an Erfolgsraten und Exact Match Scores).
Token-Effizienz: Der Token-Verbrauch wurde um >50 % reduziert (in Spitzenfällen bis zu 80,9 %).
Geschwindigkeit: Durch das Segment-Caching wurde die Renderzeit im Durchschnitt um das 20-fache beschleunigt im Vergleich zu einem System ohne Caching.
Speichereffizienz: Das Caching reduziert den Speicherbedarf für die Historie um ca. 27 % im Vergleich zu naiven Caching-Ansätzen, da nur eindeutige Segmente gespeichert werden.
Ablationsstudien: Zeigten, dass RL essenziell ist, um die Selbstkompression effektiv zu nutzen. Ohne RL neigen Agenten dazu, entweder gar nicht zu komprimieren oder die Qualität zu stark zu reduzieren, was zum Scheitern führt. Mit dem intermittierenden Belohnungsschema ( $K=5$ ) wird ein optimaler Kompromiss gefunden.

5. Bedeutung und Ausblick

AgentOCR adressiert eines der größten Engpässe bei der Skalierung von LLM-Agenten: den exponentiell wachsenden Kontextbedarf.

Ressourceneffizienz: Die Methode bietet eine praktikable Lösung, um lange Interaktionssequenzen kostengünstig und schnell zu verarbeiten, was den Einsatz von Agenten in Echtzeitszenarien und mit begrenzten Budgets ermöglicht.
Biologische Inspiration: Der Ansatz orientiert sich an biologischen Systemen, die Informationen oft visuell und komprimiert speichern, anstatt jede Information wörtlich als Text zu behalten.
Zukunft: Die Autoren sehen Potenzial in hybriden Speicherarchitekturen und der Erweiterung auf multimodale Historien (z. B. GUI-Screenshots, Diagramme), die über reinen Text hinausgehen.

Zusammenfassend demonstriert AgentOCR, dass die Nutzung visueller Tokens als „optischer Speicher" eine vielversprechende Alternative zu rein textbasierten Kontexten darstellt, die sowohl die Rechenkosten senkt als auch die Skalierbarkeit von Agenten-Systemen erhöht.

AgentOCR: Reimagining Agent History via Optical Self-Compression

1. Der Trick: Aus Text ein Bild machen (Optische Selbstkompression)

2. Der intelligente Koffer (Segment-Optisches Caching)

3. Der selbstbewusste Assistent (Selbstkompression)

Das Ergebnis

1. Problemstellung

2. Methodik: AgentOCR

A. Optische Speicherkodierung (Optical Memory Encoding)

B. Segment-Optisches Caching (Segment Optical Caching)

C. Agentische Selbstkompression (Agentic Self-Compression)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback