MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Dit paper introduceert MiroThinker-1.7 en de geavanceerde variant H1, nieuwe open-source onderzoekagenten die via gestructureerde planning en geïntegreerde verificatie state-of-the-art prestaties leveren bij complexe, meerstaps onderzoekstaken.

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

Gepubliceerd Wed, 18 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een heel complex misdrijf moet oplossen. Je hebt niet alleen een verstand nodig, maar ook een team van rechercheurs, een bibliotheek met alle boeken ter wereld, en de wijsheid om te weten wanneer je een fout hebt gemaakt en moet stoppen met zoeken.

Dit is precies wat het team achter MiroThinker heeft gebouwd. Ze hebben twee nieuwe "super-detectives" gepresenteerd: MiroThinker-1.7 en de nog krachtigere MiroThinker-H1.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: Meer is niet altijd beter

Vroeger dachten AI-ontwikkelaars: "Als een computer een vraag niet kan beantwoorden, laten we hem gewoon langer laten nadenken en meer vragen stellen."
Maar dat werkt vaak niet. Het is alsof je een detective laat ronddwalen in een stad zonder kaart. Hoe langer hij ronddwaalt, hoe meer hij verdwaalt en hoe meer fouten hij maakt. Hij begint in cirkels te lopen of zoekt naar de verkeerde aanwijzingen.

2. De Oplossing: MiroThinker-1.7 (De Slimme Detective)

MiroThinker-1.7 is niet gewoon een computer die langer nadenkt. Het is een detective die beter nadenkt.

  • De "Middagtraining" (Mid-training): Voordat de detective de straat op gaat, krijgt hij een speciale training. Hij leert niet alleen wat hij moet doen, maar hoe hij het moet aanpakken. Hij leert plannen te maken, hulpmiddelen (zoals Google of code) slim te gebruiken, en tussentijds samenvattingen te maken.
  • Het Resultaat: In plaats van 100 keer een verkeerde deur te openen, opent hij de juiste deur in 30 keer. Hij maakt minder fouten per stap, waardoor hij minder tijd en energie nodig heeft om het antwoord te vinden.

3. De Superkracht: MiroThinker-H1 (De Detective met een Controleur)

De H1-versie is de zwaarste versie, ontworpen voor de allerzwaarste cases (zoals wetenschappelijk onderzoek of complexe financiële analyses). Deze versie heeft een unieke truc: Verificatie.

Stel je voor dat de detective een oplossing vindt. In plaats van direct naar de baas te rennen, doet hij twee dingen:

  1. De Lokale Controleur (Local Verifier): Tijdens het zoeken kijkt hij constant naar zichzelf. "Wacht even, dit stukje bewijs klopt niet. Laten we dit stapje terugschroeven en een andere route proberen." Hij corrigeert zichzelf onderweg, zodat hij niet pas aan het einde merkt dat hij de verkeerde kant op is gegaan.
  2. De Globale Controleur (Global Verifier): Als hij bijna klaar is, kijkt hij naar het hele verhaal. "Hebben we echt genoeg bewijs? Is dit verhaal logisch?" Als het antwoord niet stevig genoeg is, zegt hij: "Nee, we gaan nog even verder zoeken," in plaats van een onzeker antwoord te geven.

Dit is als een detective die niet alleen zoekt, maar ook een eigen kwaliteitscontroleur heeft die elke stap checkt voordat hij de volgende zet.

4. Wat kunnen ze?

De paper laat zien dat deze detectives beter zijn dan de beste concurrenten (zoals de nieuwste versies van GPT, Claude en Gemini) op moeilijke taken:

  • Diep Onderzoek: Ze kunnen duizenden webpagina's lezen en samenvatten om een compleet rapport te schrijven.
  • Wetenschap & Financiën: Ze kunnen complexe formules oplossen of financiële rapporten analyseren zonder in de war te raken.
  • Efficiëntie: Ze vinden het antwoord sneller en met minder "zweet" (rekenkracht) dan de anderen.

5. De "Mini" Versie

Ze hebben ook een MiroThinker-1.7-mini uitgebracht. Dit is als een slimme agent die in een klein rugzakje past. Hij is lichter en sneller, maar doet het bijna net zo goed als de grote versies. Dit betekent dat ook kleinere bedrijven of ontwikkelaars deze slimme tools kunnen gebruiken.

Samenvattend

Deze paper zegt eigenlijk: "Stop met het laten nadenken van computers tot ze moe worden. Leer ze in plaats daarvan slim te plannen en zichzelf te controleren."

Met MiroThinker hebben ze AI-systemen gemaakt die niet alleen "praten", maar echt werken als betrouwbare onderzoekers die complexe problemen oplossen zonder in de war te raken. Ze zijn nu beschikbaar voor iedereen om te gebruiken, alsof je een super-intelligente assistent in je zak hebt.