MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Ce papier présente MiroThinker-1.7 et son extension H1, des agents de recherche open-source conçus pour exceller dans des tâches de raisonnement complexe et à long terme grâce à une formation agentic structurée et à l'intégration d'un mécanisme de vérification multi-niveaux garantissant la fiabilité des réponses.

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

Publié Wed, 18 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Histoire de MiroThinker : Le Détective qui ne se contente pas de courir

Imaginez que vous avez un problème très compliqué à résoudre : trouver une information précise sur internet, analyser des données financières ou comprendre un concept scientifique obscur.

Avant, les intelligences artificielles (IA) fonctionnaient un peu comme un coureur de fond épuisé. Plus on leur demandait de courir (de faire plus de recherches), plus elles s'essoufflaient, se perdaient dans les détails et finissaient par faire des erreurs. Elles pensaient que "plus de pas = meilleur résultat".

MiroThinker (et sa version ultime, MiroThinker-H1) change la donne. Ce n'est pas un coureur qui court plus vite, c'est un détective de génie qui sait exactement où regarder, quand s'arrêter pour réfléchir, et comment vérifier ses preuves avant de conclure.

Voici comment cela fonctionne, étape par étape :

1. Le Entraînement Spécial : Apprendre à ne pas paniquer

Pour créer MiroThinker, les chercheurs ne se sont pas contentés de lui donner plus de livres à lire. Ils lui ont donné un entraînement spécial de "détective".

  • L'ancienne méthode : On laissait l'IA chercher au hasard.
  • La méthode MiroThinker : On lui a appris à planifier avant d'agir. Imaginez un architecte qui dessine le plan d'une maison avant de poser la première brique. MiroThinker apprend à décomposer un gros problème en petites étapes logiques, à utiliser ses outils (comme un navigateur web ou un codeur) avec précision, et à résumer ce qu'il a trouvé avant de continuer.
  • Le résultat : Chaque action qu'il fait est plus intelligente. Il ne fait pas 100 pas pour arriver à la même place qu'un autre qui en fait 20. Il fait 20 pas, mais ils sont tous utiles.

2. Le Système de Vérification : Le "Double Check"

C'est la grande innovation de la version H1 (Heavy-Duty / Haute Performance).

Imaginez que vous écrivez un roman.

  • Le mode normal : Vous écrivez une page, puis une autre, jusqu'à la fin, en espérant que l'histoire tienne debout.
  • Le mode MiroThinker-H1 : Il a deux inspecteurs invisibles qui travaillent avec lui :
    1. L'Inspecteur Local (Le Gardien de l'Étape) : À chaque fois que le détective fait une action (par exemple, "Je vais chercher ce document"), l'inspecteur local dit : "Attends, est-ce que c'est vraiment la bonne page ? Est-ce que tu as bien compris ?" Si ce n'est pas clair, il corrige immédiatement avant de continuer. Cela évite de partir dans une mauvaise direction.
    2. L'Inspecteur Global (Le Chef de Police) : À la fin, il regarde tout le dossier. Il dit : "Ok, tu as trouvé ces preuves. Est-ce qu'elles racontent vraiment l'histoire ? Est-ce qu'il manque un élément ?" Si la réponse n'est pas solide, il demande au détective de chercher encore un peu.

C'est comme si vous aviez un double système de freinage : un pour chaque roue (local) et un pour toute la voiture (global).

3. Les Résultats : Plus rapide, plus précis, moins fatigué

Grâce à cette méthode, MiroThinker-H1 a battu les meilleurs IA du marché (comme celles de Google, OpenAI ou Claude) sur des tests très difficiles :

  • Recherche Web : Il trouve l'aiguille dans la botte de foin beaucoup mieux que les autres.
  • Science et Finance : Il comprend les concepts complexes sans se tromper.
  • Efficacité : C'est le plus impressionnant. Pour obtenir un résultat aussi bon, il utilise moins de temps de calcul et fait moins d'erreurs que ses concurrents. Il ne gaspille pas d'énergie à tourner en rond.

4. Pourquoi c'est important pour nous ?

Aujourd'hui, beaucoup d'IA sont comme des parleurs brillants : elles parlent bien, mais elles peuvent inventer des faits (hallucinations) ou se perdre dans des tâches longues.

MiroThinker est comme un collègue de travail ultra-fiable.

  • Si vous lui demandez de faire une étude de marché, il ne vous donnera pas un texte généré à la va-vite.
  • Il ira chercher les vraies données, vérifiera chaque chiffre, et vous dira : "Voici ce que j'ai trouvé, voici mes sources, et voici pourquoi je suis sûr de ce résultat."

En résumé

MiroThinker nous apprend une leçon précieuse : La qualité bat la quantité.
Au lieu de faire des IA qui "pensent" plus longtemps (et qui font plus d'erreurs), les chercheurs ont créé une IA qui pense mieux à chaque étape et qui vérifie ses preuves en permanence. C'est le passage d'un simple "chatbot" à un véritable assistant de recherche autonome et fiable.

Et le meilleur ? Les chercheurs ont rendu une version de ce cerveau disponible gratuitement pour tout le monde, permettant à chacun de créer ses propres détectives numériques ! 🕵️‍♀️🚀