MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

O artigo apresenta o MiroThinker-1.7 e sua versão aprimorada H1, agentes de pesquisa open-source projetados para tarefas de raciocínio complexo de longo prazo que utilizam treinamento intermediário estruturado e verificação integrada para alcançar desempenho de ponta em áreas como pesquisa científica e análise financeira.

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

Publicado Wed, 18 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa resolver um mistério complexo, como encontrar a origem de um segredo antigo ou analisar as finanças de uma empresa para decidir se deve investir. Antigamente, os computadores tentavam resolver isso como um estudante que lê um livro inteiro de uma vez só e tenta adivinhar a resposta. Muitas vezes, eles se perdiam, esqueciam detalhes ou chegavam a conclusões erradas porque não sabiam como pesquisar.

O MiroThinker (especificamente as versões 1.7 e H1) é como um detetive de elite que foi treinado para não apenas "adivinhar", mas para investigar de verdade.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: "Mais passos não significam melhor resposta"

Antes, a ideia era: "Se o computador errar, vamos deixá-lo tentar mais vezes". Era como pedir para alguém procurar uma agulha num palheiro e, se ele não achasse, deixá-lo revirar o palheiro por mais 10 horas. O problema é que, às vezes, a pessoa só está revirando a mesma parte errada, acumulando confusão e gastando tempo à toa.

O MiroThinker mudou a regra: Não é sobre fazer mais passos, é sobre fazer passos melhores.

2. O Treinamento: A "Escola de Detetives" (MiroThinker 1.7)

Para criar o MiroThinker-1.7, os pesquisadores não apenas deram mais livros para o computador ler. Eles criaram uma escola de treinamento intensiva com três fases principais:

  • Planejamento (O Mapa): Antes de sair correndo, o detetive aprende a desenhar um mapa. Ele aprende a quebrar o problema grande em pequenas tarefas (ex: "Primeiro, vou procurar o nome da empresa; depois, vou ver o balanço; depois, vou comparar com o mercado").
  • Uso de Ferramentas (O Kit de Ferramentas): O computador aprendeu a usar ferramentas reais, como motores de busca, para abrir sites, ler documentos e fazer cálculos, em vez de apenas alucinar respostas.
  • Resumo (O Caderno de Anotações): Como a memória é limitada, ele aprendeu a resumir o que achou. É como um detetive que, a cada 5 páginas de investigação, escreve um resumo no caderno para não esquecer o que já descobriu, jogando fora o que é irrelevante.

Resultado: O MiroThinker-1.7 é mais rápido e inteligente. Ele chega à resposta certa com menos "voltas" no labirinto.

3. O Superpoder: O "Chefe de Controle de Qualidade" (MiroThinker-H1)

Aqui entra a versão mais pesada, o H1. Imagine que o detetive (1.7) já é bom, mas às vezes ele pode estar cansado ou confiante demais em uma pista errada. O H1 adiciona um segundo personagem: um Auditor Rigoroso.

Esse auditor trabalha em dois níveis:

  • Auditor Local (O Chefe de Equipe no Campo): A cada passo que o detetive dá (ex: "Vou clicar neste link"), o auditor pergunta: "Isso faz sentido? Você está perdendo tempo? Talvez devêssemos tentar outro caminho agora?". Se o detetive estiver indo para o lado errado, o auditor o para imediatamente e corrige o curso. Isso evita que ele gaste horas em um beco sem saída.
  • Auditor Global (O Chefe da Polícia no Fim do Caso): Quando o detetive acha que terminou e tem uma resposta, o Auditor Global olha para todo o caso. Ele diz: "Você tem provas suficientes? Todas as suas pistas se encaixam? Ou você está apenas chutando?". Se a resposta não for sólida, ele manda o detetive voltar e buscar mais evidências.

4. Os Resultados: O Campeão das Pesquisas

O papel mostra que esse novo sistema é incrível em tarefas difíceis:

  • Pesquisa na Web: Ele consegue navegar na internet, ler milhares de páginas e encontrar a resposta exata melhor do que os melhores sistemas comerciais atuais (como GPT-5 ou Claude).
  • Ciência e Finanças: Ele é capaz de resolver problemas complexos de química, física e análise de mercado, onde um erro de cálculo ou uma informação errada pode custar milhões.
  • Relatórios Longos: Ele consegue escrever relatórios longos e detalhados que são não apenas bem escritos, mas verdadeiros, baseados em fatos reais encontrados na internet.

Resumo em uma frase

O MiroThinker é como transformar um computador que apenas "chuta" respostas em um equipe de detetives altamente treinada, onde cada passo é planejado, cada ferramenta é usada com maestria e há um chefe de controle de qualidade garantindo que a resposta final seja a verdade absoluta, não apenas uma tentativa adivinhada.

E o melhor? Eles liberaram o "cérebro" desse detetive para que qualquer pessoa possa usá-lo e criar seus próprios assistentes de pesquisa!