ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, komplizierten Dokumentenstapel vor dir. Es ist eine Mischung aus handschriftlichen Notizen, Tabellen, Diagrammen, Fotos und normalem Text. Jemand stellt dir eine sehr knifflige Frage dazu, zum Beispiel: „Wie viel Umsatz wurde im dritten Quartal mit dem Produkt X gemacht, basierend auf der handschriftlichen Notiz neben der Tabelle?"

Ein herkömmlicher KI-Modell (ein „Single-Model") versucht, diese Frage zu beantworten, indem es wie ein einzelner, überarbeiteter Generalist agiert. Es schaut sich alles an und versucht, alles aus dem Kopf zu lösen. Das Problem: Es ist wie ein Generalist, der versucht, gleichzeitig Chirurg, Anwalt und Mechaniker zu sein. Oft stolpert es über die Details, verwechselt die Handschrift mit dem Drucktext oder übersieht einen wichtigen Zusammenhang.

Die Forscher in diesem Papier haben eine bessere Idee entwickelt: ORCA.

Was ist ORCA?

ORCA steht für „Orchestrated Reasoning with Collaborative Agents" (Orchestriertes Denken mit kooperierenden Agenten).

Stell dir ORCA nicht als einen einzelnen Super-Helden vor, sondern als ein hochspezialisiertes Team in einem modernen Büro, das von einem klugen Manager geleitet wird. Hier ist, wie das Team funktioniert, Schritt für Schritt:

1. Der Manager (Der „Denker")

Zuerst kommt der Denker-Agent. Er liest die Frage und das Dokument nicht nur oberflächlich, sondern denkt laut nach. Er zerlegt die große, knifflige Frage in kleine, logische Schritte.

Analogie: Stell dir vor, du musst ein komplexes Rezept kochen. Der Denker ist der Koch, der sagt: „Okay, zuerst müssen wir die Zutaten aus der Schublade holen, dann das Gemüse schneiden, und erst danach das Fleisch anbraten." Er erstellt einen genauen Plan.

2. Die Spezialisten (Das „Agenten-Dock")

Anstatt dass der Denker alles selbst macht, ruft er die richtigen Experten aus seinem Team an. In ORCA gibt es neun verschiedene Spezialisten:

Einen für Tabellen (der liebt Zahlenreihen).
Einen für Handschrift (der kann kritzliges Schreiben entziffern).
Einen für Diagramme (der versteht Grafiken).
Einen für Formulare usw.
Analogie: Wenn der Denker sagt: „Wir brauchen die Zahlen aus der Tabelle", ruft er nicht den Handschrift-Experten an, sondern den Tabellen-Experten. Jeder macht genau das, wofür er trainiert wurde.

3. Der Koordinator (Der „Orchestrator")

Der Koordinator sorgt dafür, dass die Spezialisten in der richtigen Reihenfolge arbeiten und sich ihre Ergebnisse weitergeben.

Analogie: Wie ein Dirigent in einem Orchester. Er sorgt dafür, dass die Geigen (Tabellen-Experte) nicht spielen, während die Trompeten (Handschrift-Experte) noch nicht fertig sind.

4. Der Streitfall-Check (Die „Debatte")

Das ist der coolste Teil! Wenn der Spezialist eine Antwort gibt, ist das Team nicht sofort zufrieden. Ein Streit-Modus wird aktiviert, nur wenn nötig.

Ein „Gegner" (Antithese) versucht, die Antwort des Spezialisten zu widerlegen und stellt kritische Fragen: „Bist du dir sicher? Hast du die Zeile richtig gelesen?"
Ein Richter hört sich die Argumente beider Seiten an und entscheidet, wer recht hat.
Analogie: Stell dir vor, du hast eine Rechnung geprüft. Bevor du sie abschickst, lässt du einen Kollegen sie gegenlesen. Wenn beide einverstanden sind, ist alles gut. Wenn sie sich streiten, rufen sie den Chef (den Richter), der eine endgültige Entscheidung trifft. Das verhindert, dass die KI „halluziniert" (falsche Dinge erfindet).

5. Der Korrekturleser (Der „Sanity Checker")

Am Ende prüft ein letzter Agent, ob die Antwort auch wirklich so aussieht, wie sie im Dokument stehen sollte (z. B. richtige Kommasetzung, keine fehlenden Leerzeichen).

Warum ist das so genial?

Kein „One-Size-Fits-All": Herkömmliche KIs versuchen, alles mit einem Modell zu lösen. ORCA nutzt das richtige Werkzeug für den richtigen Job.
Selbstkorrektur: Die KI hinterfragt sich selbst. Sie sagt nicht einfach „Ich denke, es ist 50 Euro", sondern prüft: „Sicher? Lass uns das nochmal durchgehen."
Effizienz: Die Debatte findet nur statt, wenn sich die ersten Antworten widersprechen. In den meisten Fällen (ca. 77 %) ist das Team schnell fertig, weil alle sofort einverstanden sind.

Das Ergebnis

In Tests hat sich gezeigt, dass ORCA bei schwierigen Dokumentenfragen deutlich besser abschneidet als die besten einzelnen KI-Modelle. Es ist wie der Unterschied zwischen einem einzelnen Allround-Talent und einem gut organisierten Team von Spezialisten, die sich gegenseitig kontrollieren.

Zusammenfassend: ORCA ist wie ein hochintelligentes Büro-Team, das komplexe Dokumente nicht einfach „runterschluckt", sondern sie Schritt für Schritt analysiert, die richtigen Experten hinzuzieht, sich gegenseitig auf die Finger schaut und am Ende eine Antwort liefert, auf die man sich wirklich verlassen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Document Visual Question Answering (DocVQA) stellt für bestehende Vision-Language-Modelle (VLMs) nach wie vor eine große Herausforderung dar, insbesondere bei komplexen Schlussfolgerungen und mehrstufigen Arbeitsabläufen.

Herausforderungen: Aktuelle Ansätze scheitern oft daran, intricate Fragen in handhabbare Teilaufgaben zu zerlegen. Sie können keine spezialisierten Verarbeitungspfade für unterschiedliche Dokumentenelemente (z. B. Tabellen, handschriftliche Notizen, Diagramme, Formulare) nutzen.
Limitationen bestehender Modelle: Die meisten DocVQA-Systeme basieren auf einem einzelnen Modell, das alle Aspekte des Dokumentenverständnisses abdecken muss. Dies führt zu suboptimalen Ergebnissen bei heterogenen Informationsquellen. Zudem fehlt es diesen Modellen oft an Transparenz (fehlende Planungsschritte), Selbstverifikation und der Fähigkeit, sich dynamisch an verschiedene Dokumentenmodalitäten anzupassen.
Lücke: Obwohl Techniken wie Chain-of-Thought (CoT) die Interpretierbarkeit verbessern, verlassen sie sich weiterhin auf ein einzelnes Modell für alle Reasoning-Schritte und bieten keine Mechanismen für inhaltsbewusste Spezialisierung oder adaptive Agentenauswahl.

2. Methodik: Das ORCA-Framework

ORCA (Orchestrated Reasoning with Collaborative Agents) ist ein neuartiges Multi-Agenten-Framework, das explizites Reasoning mit kollaborativer Ausführung integriert. Der Prozess läuft in fünf sequenziellen Stufen ab:

Stufe 1: Kontextverständnis (Context Understanding)

Ein „Thinker-Agent" (basierend auf GLM-4.5V-9B) analysiert die Frage und das Dokument gemeinsam.

Output: Er generiert einen strukturierten Reasoning-Pfad ( $R$ ), der die Frage in logische Schritte zerlegt, sowie eine initiale Antwort ( $a_T$ ).
Zweck: Dieser Pfad dient als Leitfaden für die nachfolgende Agentenauswahl und Orchestrierung.

Stufe 2: Kollaborative Agenten-Ausführung (Collaborative Agent Execution)

Basierend auf dem Reasoning-Pfad werden spezialisierte Agenten dynamisch ausgewählt und ausgeführt.

Agent Dock: Ein Pool aus neun spezialisierten Agenten (basierend auf Qwen3-VL-8B), jeweils für einen bestimmten Inhaltstyp zuständig (z. B. $A_{table}$ für Tabellen, $A_{ocr}$ für Handschrift, $A_{figure}$ für Diagramme, $A_{layout}$ für Layout-Analyse).
Router: Ein Router-Agent ( $A_{route}$ ) entscheidet, welche Agenten aktiviert werden müssen. Dies wird als Multi-Label-Klassifizierungsaufgabe formuliert, gelöst durch eine Turbo DFS-Decodierung (Depth-First Search mit score-gesteuertem Pruning), um eine deterministische und effiziente Auswahl zu gewährleisten.
Orchestrator: Bestimmt die optimale Ausführungsreihenfolge der aktivierten Agenten. Die Agenten arbeiten sequenziell; jeder erhält die Ausgabe des Vorgängers.
Maskierung: Um Bestätigungsfehler (Confirmation Bias) zu vermeiden, wird die initiale Antwort des Thinkers im Reasoning-Pfad maskiert, bevor sie an die spezialisierten Agenten weitergegeben wird. Das Ergebnis ist die Experten-Antwort ( $a_E$ ).

Stufe 3: Stress-Testing-Sitzung (Stress Testing Session)

Hier wird die Experten-Antwort ( $a_E$ ) mit der initiale Antwort ( $a_T$ ) verglichen.

Debatte: Wenn eine Diskrepanz besteht, generiert ein Debatte-Agent herausfordernde Folgefragen. Der spezialisierte Agent muss darauf reagieren.
Evaluation: Ein Evaluierungs-Agent prüft, ob der spezialisierte Agent konsistent bleibt.
Ergebnis: Bei Bestehen wird $a_E$ übernommen. Bei Versagen wird Stufe 4 ausgelöst.

Stufe 4: Mehrstufige Konversation (Multi-turn Conversation)

Dieser Schritt wird nur bei Unsicherheit aktiviert (ca. 8,3 % der Fälle).

Akteure: Ein Thesis-Agent (vertritt $a_E$ ) und ein Antithesis-Agent (generiert eine alternative Antwort $a_{alt}$ ) führen eine strukturierte Debatte unter Aufsicht eines Richter-Agenten (Judge).
Protokoll: Die Debatte läuft über maximal drei Runden mit strukturierten Argumenten (Referenzen, Kritik, Schlussfolgerung). Der Richter entscheidet am Ende, welche Antwort überzeugender ist, oder wählt basierend auf linguistischer Analyse der gesamten Transkription.

Stufe 5: Antwortverfeinerung (Answer Refinement)

Ein Sanity-Checker-Agent sorgt für Format-Konsistenz. Er korrigiert fehlende Leerzeichen oder Interpunktion, um die Antwort exakt an die Formatierung des Quelldokuments anzupassen. Dies ist entscheidend für die Genauigkeit von DocVQA-Metriken.

3. Schlüsselbeiträge

Neues Multi-Agenten-Framework: ORCA integriert explizites Reasoning, spezialisiertes Dokumentenverständnis und adversarische Verifikation in einem einzigen System für robuste DocVQA.
Überlegene Leistung: Das Framework erreicht auf fast allen Standard-Benchmarks Top-Ergebnisse im Vergleich zu State-of-the-Art-Methoden, was die Effektivität der kollaborativen Architektur mit eingebauten Debatte- und Verifikationsmechanismen beweist.
Validierung durch Ablationsstudien: Die Studie zeigt, dass die Reasoning-gesteuerte Agentenauswahl und die Mehrstufige Konversation wesentliche Beiträge zur Genauigkeit leisten, insbesondere bei komplexen Aufgaben.
Effizienz: Durch bedingte Ausführung (Stress-Testing und Debatte nur bei Unsicherheit) wird der Rechenaufwand optimiert, ohne die Zuverlässigkeit zu opfern.

4. Ergebnisse

Das Framework wurde auf drei Benchmarks evaluiert: Single-Page DocVQA, InfographicsVQA und OCRBench-v2.

DocVQA & InfographicsVQA: ORCA (mit Qwen3VL-8B als Basis) erreicht einen ANLS-Score von 97,2 % auf DocVQA und 88,0 % auf InfographicsVQA.
- Dies entspricht einer Verbesserung von +1,1 % auf DocVQA und +4,9 % auf InfographicsVQA gegenüber dem besten einzelnen Baseline-Modell (Qwen3VL-8B-Instruct).
- Der größte Gewinn (+6,4 % im Durchschnitt) zeigt sich bei InfographicsVQA, was die Stärke von ORCA bei der Integration von visuellen und textuellen Informationen in komplexen Layouts unterstreicht.
OCRBench-v2: ORCA erzielt konsistente Verbesserungen über alle Modellgrößen hinweg. Mit Qwen3VL-8B erreicht es einen Durchschnittsscore von 67,1 % (+1,7 % gegenüber dem Baseline). Besonders stark sind die Verbesserungen bei Aufgaben wie „Understanding", „Reasoning" und „Spotting".
Generalisierung: Auch auf ChartQA (Diagramm-Verständnis) und VQAv2 konnte ORCA signifikante Verbesserungen (+4,4 % bzw. +4,7 %) erzielen.
Effizienz: Durch Early-Termination (wenn Thinker und Experte übereinstimmen) wird die Latenz in 77 % der Fälle reduziert. Die volle Pipeline ist langsamer, aber für hochpräzise Anwendungen gerechtfertigt.

5. Bedeutung und Ausblick

ORCA markiert einen Paradigmenwechsel im Bereich des visuellen Fragenbeantwortens für Dokumente. Anstatt auf monolithische Modelle zu setzen, die versuchen, alles gleichzeitig zu lernen, nutzt ORCA ein modulares Ökosystem aus spezialisierten Agenten, die durch ein Reasoning-Framework orchestriert werden.

Zuverlässigkeit: Durch die Einführung von Selbstverifikation (Debatte, Stress-Testing) wird die Zuverlässigkeit von KI-Antworten in kritischen Szenarien erhöht.
Skalierbarkeit: Das System ist architekturunabhängig und kann mit fortschrittlicheren Basis-Modellen (Backbones) aktualisiert werden, ohne die gesamte Architektur ändern zu müssen.
Zukunft: Die Autoren planen, den Router durch Reinforcement Learning zu optimieren, die Orchestrierungsreihenfolge durch Policy Gradients zu lernen und das Framework auf mehrseitige Dokumente zu erweitern.

Zusammenfassend beweist ORCA, dass eine orchestrierte Zusammenarbeit spezialisierter Agenten komplexe DocVQA-Aufgaben effektiver löst als einzelne, auch sehr große, Vision-Language-Modelle.