MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die Geschichte von den Super-Detektiven: MiroThinker

Stell dir vor, du hast ein riesiges, chaotisches Labyrinth voller Bücher, Computer und Geheimnisse. Deine Aufgabe ist es, eine sehr schwierige Frage zu beantworten, die niemand sonst beantworten kann. Dafür brauchst du einen Detektiv.

In der Welt der künstlichen Intelligenz (KI) gab es bisher zwei Arten von Detektiven:

Der schnelle Schnäppchenjäger: Er liest schnell, macht aber oft Fehler und vergisst, was er vor 10 Minuten gelesen hat.
Der langsame Denker: Er denkt lange nach, aber wenn er einen Fehler macht, läuft er oft in die falsche Richtung und gibt erst auf, wenn er völlig erschöpft ist.

Das Team von MiroMind hat nun zwei neue Detektive vorgestellt: MiroThinker-1.7 und den noch stärkeren MiroThinker-H1. Hier ist, was sie besonders macht:

1. MiroThinker-1.7: Der gut trainierte Auszubildende

Früher dachten viele KI-Entwickler: „Wenn der Detektiv einfach mehr Schritte macht, wird er besser." Das war wie ein Schüler, der 100-mal denselben Satz falsch abschreibt, in der Hoffnung, dass er irgendwann richtig wird. Das bringt nichts.

MiroThinker-1.7 hat einen anderen Ansatz: Qualität vor Quantität.

Die Ausbildung (Mid-Training): Bevor er auf den Job geschickt wird, durchläuft er eine spezielle „Ausbildung". Er lernt nicht nur, Fragen zu beantworten, sondern wie man einen Plan macht, wie man Werkzeuge (wie Google-Suche oder Code-Programme) benutzt und wie man Zwischenergebnisse zusammenfasst.
Die Analogie: Stell dir vor, ein normaler KI-Detektiv rennt blind durch das Labyrinth. MiroThinker-1.7 hingegen hält an jeder Kreuzung inne, schaut auf seine Karte, prüft, ob der Weg Sinn ergibt, und entscheidet dann erst, wohin er geht.
Das Ergebnis: Er braucht viel weniger Schritte, um ans Ziel zu kommen, weil jeder einzelne Schritt „sauber" und richtig ist. Er macht weniger Fehler und vergisst weniger.

2. MiroThinker-H1: Der Meister mit dem Sicherheitsnetz

Wenn MiroThinker-1.7 schon so gut ist, was macht H1 (Heavy-Duty) dann? Er fügt ein Sicherheitsnetz hinzu, das wir „Verifizierung" nennen.

Stell dir vor, du löst ein riesiges Puzzle.

Der lokale Prüfer (Local Verifier): Während du das Puzzle legst, schaut dieser Prüfer sofort auf jedes einzelne Teil, das du gerade hineingeschoben hast. „Hey, passt das wirklich? Oder hast du das Teil auf den Kopf gestellt?" Wenn es nicht passt, korrigiert er es sofort, bevor du weitermachst.
Der globale Prüfer (Global Verifier): Am Ende des Puzzles schaut dieser Prüfer auf das ganze Bild. „Haben wir wirklich alle Teile? Passt das Bild zusammen, oder haben wir eine Lücke übersehen?" Wenn etwas fehlt, sagt er: „Nein, wir müssen noch einmal suchen, bevor wir das Bild abgeben."

Warum ist das wichtig?
Oft sind Detektive so selbstvertraut, dass sie denken: „Ich habe die Antwort!" – auch wenn sie falsch liegen. MiroThinker-H1 zwingt sich selbst, skeptisch zu sein. Er prüft seine eigenen Gedanken, bevor er sie als endgültige Antwort ausgibt.

3. Die Ergebnisse: Wer gewinnt?

Das Team hat ihre Detektive gegen die besten der Welt getestet (wie GPT-5, Claude, Gemini). Die Ergebnisse waren beeindruckend:

Im Internet-Research: Bei Aufgaben, bei denen man im ganzen Internet nach Informationen suchen muss (wie bei „BrowseComp"), schlug MiroThinker-H1 fast alle Konkurrenten. Er war schneller und genauer.
In der Wissenschaft & Finanzen: Auch bei schwierigen wissenschaftlichen Fragen oder Finanzanalysen war er der Beste.
Effizienz: Das kleine Modell (MiroThinker-1.7-mini) ist so effizient, dass es mit nur einem Bruchteil der Rechenleistung fast so gut abschneidet wie die riesigen Modelle der Konkurrenz.

🎯 Das Fazit in einem Satz

Statt einen KI-Detektiv zu bauen, der einfach nur länger und lauter schreit, haben die MiroMind-Entwickler einen gebaut, der besser plant, Werkzeuge klüger nutzt und seine eigenen Fehler sofort korrigiert.

Es ist der Unterschied zwischen einem Schüler, der wild herumtobt, und einem erfahrenen Meister, der ruhig, strukturiert und mit einem Sicherheitsnetz arbeitet. Und genau das macht MiroThinker-H1 zum neuen Weltmeister im „Forschungs-Detektivarbeit".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz erheblicher Fortschritte bei Large Language Models (LLMs) bei der Textgenerierung und der Beantwortung einfacher Fragen, scheitern viele reale Probleme (wie wissenschaftliche Analysen, Finanzreasoning oder offene Recherchen) an der Komplexität der erforderlichen Lösungspfade. Diese Aufgaben erfordern lange Ketten von Schlussfolgerungen, iterative Informationsbeschaffung und die Fähigkeit, Zwischenergebnisse zu verifizieren, bevor eine endgültige Antwort gegeben wird.

Das zentrale Problem bestehender Agenten-Frameworks ist, dass eine reine Skalierung der Länge der Interaktionspfade (mehr Schritte) die Leistung nicht zuverlässig verbessert. Wenn Zwischenschritte ungenau oder schlecht fundiert sind, akkumulieren längere Pfade eher Rauschen und Fehler, anstatt die Lösungsqualität zu steigern. Es fehlt an Mechanismen, die sicherstellen, dass jeder einzelne Interaktionsschritt effektiv ist und dass der gesamte Denkpfad verifiziert wird.

2. Methodik

Die Autoren schlagen einen Paradigmenwechsel vor: Statt die Anzahl der Schritte zu erhöhen, muss die Effektivität der Interaktion pro Schritt skaliert werden. Dies wird durch zwei Hauptkomponenten erreicht:

A. Agentic Mid-Training und Trainingspipeline

MiroThinker-1.7 basiert auf einer vollständig integrierten Trainingspipeline, die vier Stufen umfasst:

Agentic Mid-Training: Diese Stufe stärkt die "atomaren Fähigkeiten" des Agenten (Planung, Schlussfolgerung, Werkzeugnutzung, Zusammenfassung). Das Modell wird durch groß angelegte Überwachung mit Daten trainiert, die strukturierte Planung, kontextabhängiges Schlussfolgern und Werkzeuginteraktionen betonen. Dies verbessert die Zuverlässigkeit jedes einzelnen Schrittes.
Supervised Fine-Tuning (SFT): Das Modell lernt, Experten-Trajektorien (mehrschrittige Denk- und Handlungspfade) nachzuahmen.
Preference Optimization (DPO): Durch Direct Preference Optimization wird das Modell darauf trainiert, korrekte Antworten gegenüber fehlerhaften zu bevorzugen, wobei die Korrektheit der Antwort das einzige Kriterium ist (keine starren strukturellen Constraints).
Reinforcement Learning (RL): Mittels Group Relative Policy Optimization (GRPO) wird das Modell in Live-Umgebungen durch Trial-and-Error weiter verfeinert. Ein spezieller Entropie-Kontrollmechanismus verhindert, dass das Modell zu früh in lokale Optima kollabiert.

B. Heavy-Duty Reasoning Mode (Verifikationszentriert)

MiroThinker-H1 führt einen neuen Reasoning-Modus ein, der Verifikation in den Prozess integriert:

Lokaler Verifizierer (Local Verifier): Bewertet und verfeinert einzelne Zwischenschritte (Planung, Werkzeugaufrufe, Hypothesenupdates) während der Inferenz. Dies ermöglicht dem Modell, alternative Aktionen zu prüfen und Fehler frühzeitig zu korrigieren, anstatt sich auf den wahrscheinlichsten (aber möglicherweise falschen) Pfad zu verlassen.
Globaler Verifizierer (Global Verifier): Auditiert den gesamten Denkpfad. Das System prüft, ob die gesammelte Evidenzkette kohärent ist und die finale Antwort stützt. Bei unzureichender Evidenz wird der Agent aufgefordert, den Pfad zu vervollständigen oder neu zu starten, anstatt eine vorzeitige Antwort zu geben.

C. Architektur und Werkzeugnutzung

Dual-Loop-Struktur: Ein äußerer Episoden-Loop (für Neustarts bei Sackgassen) und ein innerer Schritt-Loop.
Kontextmanagement: Verwendung eines gleitenden Fensters ( $K=5$ ) für Beobachtungen, um den Token-Budget zu schonen, während der vollständige Denkverlauf (Gedanken und Aktionen) erhalten bleibt.
Werkzeug-Interface: Umfasst Informationsbeschaffung (Suche, Scraping mit Jina-Backend), Code-Ausführung (E2B Sandbox) und Datei-Transfer.

3. Schlüsselbeiträge

MiroThinker-1.7: Ein Open-Source-Modell (und eine effiziente Mini-Version), das durch Mid-Training überlegene atomare Agentenfähigkeiten besitzt und komplexe Aufgaben mit weniger Interaktionsschritten löst als Vorgängermodelle.
MiroThinker-H1: Das Flaggschiff-System, das den Heavy-Duty-Modus mit lokaler und globaler Verifikation integriert. Dies ermöglicht eine zuverlässige Lösung von Langzeit-Reasoning-Aufgaben.
Verifikationszentrierter Ansatz: Die Demonstration, dass die Integration von Verifikationsmechanismen (Verifizieren ist oft einfacher als Generieren) die Robustheit von Agenten in realen Umgebungen drastisch erhöht.
Effektive Interaktionsskalierung: Der Nachweis, dass die Qualität jedes Schrittes wichtiger ist als die reine Anzahl der Schritte.

4. Ergebnisse

Die Modelle wurden auf einer Vielzahl von Benchmarks getestet, darunter Open-Web-Recherche, wissenschaftliches Reasoning und Finanzanalyse.

Benchmark-Leistung:
- BrowseComp: MiroThinker-H1 erreicht 88,2 Punkte (SOTA), was besser ist als GPT-5.4 (82,7) und Gemini-3.1-Pro (85,9).
- BrowseComp-ZH: 84,4 Punkte (SOTA), besser als Seed-2.0-Pro (82,4).
- GAIA: 88,5 Punkte, ein neuer Rekord, der GPT-5 (76,4) um 12,1 Punkte übertrifft.
- FrontierScience-Olympiad: 79,0 Punkte, übertrifft GPT-5.2-high (77,1) und Gemini-3-Pro (76,1).
- FinSearchComp & MedBrowseComp: Führende Ergebnisse in Finanz- und Medizinbereichen.
Effizienz: MiroThinker-1.7-mini (nur 3B aktivierte Parameter) erzielt konkurrenzfähige Ergebnisse und schlägt in einigen Fällen deutlich größere proprietäre Modelle.
Interaktionslängen-Reduktion: Im Vergleich zu MiroThinker-1.5 benötigt die 1.7-Version bei gleicher Parametergröße 43 % weniger Interaktionsschritte, erzielt aber 16,7 % bessere Leistung.
Verifikationseffekt: Der Einsatz des lokalen Verifizierers reduzierte die Schrittzahl auf schwierigen Teilmengen von 1185 auf 210 Schritte, während die Genauigkeit um +26,4 Punkte stieg.

5. Bedeutung

Der technische Bericht unterstreicht einen wichtigen Wandel in der Entwicklung von KI-Agenten: Der Fokus verschiebt sich von der bloßen Verlängerung von Denkpfaden hin zur Qualitätssicherung jedes einzelnen Schrittes und zur systematischen Verifikation.

Zuverlässigkeit: Durch die Integration von Verifikation auf lokaler und globaler Ebene werden Agenten robuster gegen Fehlerakkumulation, was sie für kritische Anwendungen in Wissenschaft, Finanzen und Forschung tauglich macht.
Open Source: Die Veröffentlichung von MiroThinker-1.7 und -1.7-mini als Open-Source-Modelle demokratisiert den Zugang zu hochleistungsfähigen Forschungsagenten.
Skalierbarkeit: Die Ergebnisse zeigen, dass effektive Skalierung durch bessere Trainingsdaten (Mid-Training) und Verifikationsmechanismen erreicht wird, nicht durch blindes Erhöhen der Rechenleistung oder Schrittzahl.

Zusammenfassend stellt MiroThinker-H1 einen neuen State-of-the-Art für autonome Forschungsagenten dar, der komplexe, mehrstufige Probleme in realen Umgebungen zuverlässig lösen kann.