DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Die Arbeit stellt DualSpec vor, ein heterogenes Spekulationsframework für Deep-Research-Agenten, das die unterschiedlichen Anforderungen von Such- und Besuchsaktionen nutzt, um durch einen leichten semantischen Verifizierer die End-to-End-Latenz um bis zu 3,28-fach zu reduzieren, ohne die Genauigkeit zu beeinträchtigen.

Shuzhang Zhong, Baotong Lu, Qi Chen, Chuanjie Liu, Fan Yang, Meng Li

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber auch sehr langsamen und hungrigen Assistenten, der komplexe Forschungsfragen für dich beantworten soll. Nennen wir ihn „Der Denker".

Wenn du ihn fragst: „Wie kann man effiziente KI-Agenten bauen?", macht er folgendes:

  1. Er denkt lange nach (Reasoning).
  2. Er sucht im Internet (Search).
  3. Er liest die gefundenen Seiten (Visit).
  4. Er denkt wieder nach, basierend auf dem Gelesenen.

Das Problem ist: Dieser Prozess dauert ewig. Der Denker muss für jeden Schritt erst eine lange Gedankenkette aufbauen, bevor er überhaupt eine Handlung ausführt. Das ist, als würdest du für jede kleine Entscheidung in deinem Leben erst einen 10-seitigen Aufsatz schreiben, bevor du die Tür öffnest.

Die Forscher in diesem Papier haben eine Lösung namens DualSpec entwickelt. Sie nutzen eine alte Idee aus der Psychologie, die wir alle kennen: System 1 und System 2.

Die zwei Arten des Denkens (Die Metapher)

Stell dir dein Gehirn wie ein Auto mit zwei Gangarten vor:

  • System 2 (Der Denker): Das ist der niedrige Gang. Du musst stark treten, alles genau berechnen und überlegen. Das ist langsam, aber notwendig für schwierige Aufgaben.
  • System 1 (Der Instinkt): Das ist der hohe Gang. Du fährst automatisch, ohne nachzudenken. Das ist blitzschnell, funktioniert aber nur bei Dingen, die du schon kennst oder die einfach sind.

Die Forscher haben entdeckt, dass der KI-Assistent diese beiden Modi für unterschiedliche Aufgaben braucht:

  1. Die „Suche" (Search): Wenn der Assistent eine Suchanfrage formulieren muss (z. B. „Was sind die neuesten Studien zu KI?"), ist das schwierig. Es gibt unendlich viele Möglichkeiten, wie man die Frage stellen könnte. Hier braucht er System 2. Er muss tief nachdenken, um die perfekte Frage zu finden.
  2. Der „Besuch" (Visit): Wenn der Assistent eine Liste von Suchergebnissen hat und eine davon anklicken muss (z. B. „Klicke auf den Link mit dem Titel 'Neue KI-Studien'"), ist das einfach. Es ist wie ein Mustererkennungsspiel. Hier reicht System 1. Der Assistent kann das fast automatisch tun, ohne lange zu überlegen.

Das Problem mit bisherigen Lösungen

Bisherige Versuche, den Assistenten schneller zu machen, waren wie ein Stuntman, der versucht, alles gleichzeitig zu tun, aber immer auf die gleiche Weise. Sie dachten: „Lass uns einfach einen kleinen, schnellen Roboter die Arbeit machen lassen."
Aber das ging schief:

  • Wenn der kleine Roboter eine Suche machen sollte, war er zu dumm und stellte die falsche Frage.
  • Wenn er eine Besuchs-Aufgabe hatte, war er zwar schnell, aber der große Denker musste trotzdem warten, um zu prüfen, ob alles stimmt.

Die Lösung: DualSpec (Der clevere Manager)

DualSpec ist wie ein sehr effizienter Manager, der genau weiß, wann er welchen Mitarbeiter einsetzt. Er nutzt einen zweigleisigen Ansatz:

  1. Der schnelle Vorschlag (Die Spekulation):

    • Für eine Suche schickt er einen kleinen, aber schlauen Roboter, der nachdenkt, um die Frage zu formulieren.
    • Für einen Besuch schickt er den großen, starken Roboter, aber er sagt ihm: „Denk nicht nach, mach es einfach intuitiv!" (Das spart enorm viel Zeit).
  2. Der schnelle Check (Die Verifikation):

    • Statt dass der große Denker jetzt alles neu durchdenkt, um den Vorschlag zu prüfen, schaut er nur kurz hin und fragt sich: „Macht das Sinn? Führt das in die richtige Richtung?"
    • Wenn ja: Los geht's! Der Vorschlag wird sofort ausgeführt.
    • Wenn nein: Dann denkt der große Denker erst mal richtig nach und korrigiert es.

Warum ist das so genial?

Stell dir vor, du bist in einem Labyrinth.

  • Der alte Weg: Du stehst an jeder Kreuzung, nimmst einen Stift, zeichnest eine Karte, überlegst 5 Minuten, welcher Weg der beste ist, und gehst dann los.
  • Der DualSpec-Weg:
    • An einer schwierigen Kreuzung (Suche) überlegst du kurz (System 2).
    • An einer einfachen Kreuzung, wo der Weg klar ist (Besuch), rennst du einfach los, ohne zu zögern (System 1).
    • Ein kleiner Helfer (der Verifizierer) schaut nur kurz, ob du nicht gerade in eine Mauer rennst. Wenn nicht, bleibst du auf Kurs.

Das Ergebnis

Durch diese Methode wird der KI-Assistent bis zu 3,28-mal schneller. Das ist, als würdest du eine Reise von 3 Stunden auf 1 Stunde verkürzen, ohne dass du am Ende ein schlechteres Ziel erreichst.

Zusammenfassend:
DualSpec lernt, dass nicht jede Entscheidung eine große Denkpause braucht. Es kombiniert die Kraft des tiefen Denkens (für schwierige Suchen) mit der Geschwindigkeit des intuitiven Handelns (für einfaches Auswählen). So wird die KI nicht nur schlauer, sondern auch viel schneller und effizienter.