MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Die Arbeit stellt MiroThinker-1.7 und dessen erweiterte Version MiroThinker-H1 vor, zwei Open-Source-Forschungsagenten, die durch strukturierte Planung, kontextuelles Reasoning und mehrstufige Verifikation state-of-the-art-Leistung bei komplexen, langfristigen Aufgaben wie wissenschaftlicher Analyse und Finanzforschung erreichen.

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

Veröffentlicht Wed, 18 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die Geschichte von den Super-Detektiven: MiroThinker

Stell dir vor, du hast ein riesiges, chaotisches Labyrinth voller Bücher, Computer und Geheimnisse. Deine Aufgabe ist es, eine sehr schwierige Frage zu beantworten, die niemand sonst beantworten kann. Dafür brauchst du einen Detektiv.

In der Welt der künstlichen Intelligenz (KI) gab es bisher zwei Arten von Detektiven:

  1. Der schnelle Schnäppchenjäger: Er liest schnell, macht aber oft Fehler und vergisst, was er vor 10 Minuten gelesen hat.
  2. Der langsame Denker: Er denkt lange nach, aber wenn er einen Fehler macht, läuft er oft in die falsche Richtung und gibt erst auf, wenn er völlig erschöpft ist.

Das Team von MiroMind hat nun zwei neue Detektive vorgestellt: MiroThinker-1.7 und den noch stärkeren MiroThinker-H1. Hier ist, was sie besonders macht:

1. MiroThinker-1.7: Der gut trainierte Auszubildende

Früher dachten viele KI-Entwickler: „Wenn der Detektiv einfach mehr Schritte macht, wird er besser." Das war wie ein Schüler, der 100-mal denselben Satz falsch abschreibt, in der Hoffnung, dass er irgendwann richtig wird. Das bringt nichts.

MiroThinker-1.7 hat einen anderen Ansatz: Qualität vor Quantität.

  • Die Ausbildung (Mid-Training): Bevor er auf den Job geschickt wird, durchläuft er eine spezielle „Ausbildung". Er lernt nicht nur, Fragen zu beantworten, sondern wie man einen Plan macht, wie man Werkzeuge (wie Google-Suche oder Code-Programme) benutzt und wie man Zwischenergebnisse zusammenfasst.
  • Die Analogie: Stell dir vor, ein normaler KI-Detektiv rennt blind durch das Labyrinth. MiroThinker-1.7 hingegen hält an jeder Kreuzung inne, schaut auf seine Karte, prüft, ob der Weg Sinn ergibt, und entscheidet dann erst, wohin er geht.
  • Das Ergebnis: Er braucht viel weniger Schritte, um ans Ziel zu kommen, weil jeder einzelne Schritt „sauber" und richtig ist. Er macht weniger Fehler und vergisst weniger.

2. MiroThinker-H1: Der Meister mit dem Sicherheitsnetz

Wenn MiroThinker-1.7 schon so gut ist, was macht H1 (Heavy-Duty) dann? Er fügt ein Sicherheitsnetz hinzu, das wir „Verifizierung" nennen.

Stell dir vor, du löst ein riesiges Puzzle.

  • Der lokale Prüfer (Local Verifier): Während du das Puzzle legst, schaut dieser Prüfer sofort auf jedes einzelne Teil, das du gerade hineingeschoben hast. „Hey, passt das wirklich? Oder hast du das Teil auf den Kopf gestellt?" Wenn es nicht passt, korrigiert er es sofort, bevor du weitermachst.
  • Der globale Prüfer (Global Verifier): Am Ende des Puzzles schaut dieser Prüfer auf das ganze Bild. „Haben wir wirklich alle Teile? Passt das Bild zusammen, oder haben wir eine Lücke übersehen?" Wenn etwas fehlt, sagt er: „Nein, wir müssen noch einmal suchen, bevor wir das Bild abgeben."

Warum ist das wichtig?
Oft sind Detektive so selbstvertraut, dass sie denken: „Ich habe die Antwort!" – auch wenn sie falsch liegen. MiroThinker-H1 zwingt sich selbst, skeptisch zu sein. Er prüft seine eigenen Gedanken, bevor er sie als endgültige Antwort ausgibt.

3. Die Ergebnisse: Wer gewinnt?

Das Team hat ihre Detektive gegen die besten der Welt getestet (wie GPT-5, Claude, Gemini). Die Ergebnisse waren beeindruckend:

  • Im Internet-Research: Bei Aufgaben, bei denen man im ganzen Internet nach Informationen suchen muss (wie bei „BrowseComp"), schlug MiroThinker-H1 fast alle Konkurrenten. Er war schneller und genauer.
  • In der Wissenschaft & Finanzen: Auch bei schwierigen wissenschaftlichen Fragen oder Finanzanalysen war er der Beste.
  • Effizienz: Das kleine Modell (MiroThinker-1.7-mini) ist so effizient, dass es mit nur einem Bruchteil der Rechenleistung fast so gut abschneidet wie die riesigen Modelle der Konkurrenz.

🎯 Das Fazit in einem Satz

Statt einen KI-Detektiv zu bauen, der einfach nur länger und lauter schreit, haben die MiroMind-Entwickler einen gebaut, der besser plant, Werkzeuge klüger nutzt und seine eigenen Fehler sofort korrigiert.

Es ist der Unterschied zwischen einem Schüler, der wild herumtobt, und einem erfahrenen Meister, der ruhig, strukturiert und mit einem Sicherheitsnetz arbeitet. Und genau das macht MiroThinker-H1 zum neuen Weltmeister im „Forschungs-Detektivarbeit".