Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa resolver um mistério complexo, como encontrar a origem de um segredo antigo ou analisar as finanças de uma empresa para decidir se deve investir. Antigamente, os computadores tentavam resolver isso como um estudante que lê um livro inteiro de uma vez só e tenta adivinhar a resposta. Muitas vezes, eles se perdiam, esqueciam detalhes ou chegavam a conclusões erradas porque não sabiam como pesquisar.

O MiroThinker (especificamente as versões 1.7 e H1) é como um detetive de elite que foi treinado para não apenas "adivinhar", mas para investigar de verdade.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: "Mais passos não significam melhor resposta"

Antes, a ideia era: "Se o computador errar, vamos deixá-lo tentar mais vezes". Era como pedir para alguém procurar uma agulha num palheiro e, se ele não achasse, deixá-lo revirar o palheiro por mais 10 horas. O problema é que, às vezes, a pessoa só está revirando a mesma parte errada, acumulando confusão e gastando tempo à toa.

O MiroThinker mudou a regra: Não é sobre fazer mais passos, é sobre fazer passos melhores.

2. O Treinamento: A "Escola de Detetives" (MiroThinker 1.7)

Para criar o MiroThinker-1.7, os pesquisadores não apenas deram mais livros para o computador ler. Eles criaram uma escola de treinamento intensiva com três fases principais:

Planejamento (O Mapa): Antes de sair correndo, o detetive aprende a desenhar um mapa. Ele aprende a quebrar o problema grande em pequenas tarefas (ex: "Primeiro, vou procurar o nome da empresa; depois, vou ver o balanço; depois, vou comparar com o mercado").
Uso de Ferramentas (O Kit de Ferramentas): O computador aprendeu a usar ferramentas reais, como motores de busca, para abrir sites, ler documentos e fazer cálculos, em vez de apenas alucinar respostas.
Resumo (O Caderno de Anotações): Como a memória é limitada, ele aprendeu a resumir o que achou. É como um detetive que, a cada 5 páginas de investigação, escreve um resumo no caderno para não esquecer o que já descobriu, jogando fora o que é irrelevante.

Resultado: O MiroThinker-1.7 é mais rápido e inteligente. Ele chega à resposta certa com menos "voltas" no labirinto.

3. O Superpoder: O "Chefe de Controle de Qualidade" (MiroThinker-H1)

Aqui entra a versão mais pesada, o H1. Imagine que o detetive (1.7) já é bom, mas às vezes ele pode estar cansado ou confiante demais em uma pista errada. O H1 adiciona um segundo personagem: um Auditor Rigoroso.

Esse auditor trabalha em dois níveis:

Auditor Local (O Chefe de Equipe no Campo): A cada passo que o detetive dá (ex: "Vou clicar neste link"), o auditor pergunta: "Isso faz sentido? Você está perdendo tempo? Talvez devêssemos tentar outro caminho agora?". Se o detetive estiver indo para o lado errado, o auditor o para imediatamente e corrige o curso. Isso evita que ele gaste horas em um beco sem saída.
Auditor Global (O Chefe da Polícia no Fim do Caso): Quando o detetive acha que terminou e tem uma resposta, o Auditor Global olha para todo o caso. Ele diz: "Você tem provas suficientes? Todas as suas pistas se encaixam? Ou você está apenas chutando?". Se a resposta não for sólida, ele manda o detetive voltar e buscar mais evidências.

4. Os Resultados: O Campeão das Pesquisas

O papel mostra que esse novo sistema é incrível em tarefas difíceis:

Pesquisa na Web: Ele consegue navegar na internet, ler milhares de páginas e encontrar a resposta exata melhor do que os melhores sistemas comerciais atuais (como GPT-5 ou Claude).
Ciência e Finanças: Ele é capaz de resolver problemas complexos de química, física e análise de mercado, onde um erro de cálculo ou uma informação errada pode custar milhões.
Relatórios Longos: Ele consegue escrever relatórios longos e detalhados que são não apenas bem escritos, mas verdadeiros, baseados em fatos reais encontrados na internet.

Resumo em uma frase

O MiroThinker é como transformar um computador que apenas "chuta" respostas em um equipe de detetives altamente treinada, onde cada passo é planejado, cada ferramenta é usada com maestria e há um chefe de controle de qualidade garantindo que a resposta final seja a verdade absoluta, não apenas uma tentativa adivinhada.

E o melhor? Eles liberaram o "cérebro" desse detetive para que qualquer pessoa possa usá-lo e criar seus próprios assistentes de pesquisa!

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MiroThinker-1.7 & H1

1. O Problema

Os modelos de linguagem grandes (LLMs) evoluíram significativamente na geração de texto e respostas conversacionais. No entanto, tarefas do mundo real complexas — como análise científica, raciocínio financeiro e pesquisa aberta — exigem mais do que uma única resposta; elas demandam cadeias longas de raciocínio, coleta iterativa de informações e verificação de conclusões intermediárias.

O artigo identifica um gargalo crítico nos agentes de IA atuais: simplesmente aumentar o comprimento das trajetórias de interação (mais passos de raciocínio) não melhora necessariamente o desempenho. Pelo contrário, se os passos intermediários forem imprecisos ou mal fundamentados, trajetórias mais longas tendem a acumular ruído, propagar erros e degradar a qualidade da solução final. O problema central é a falta de interação efetiva e mecanismos robustos de verificação durante o processo de resolução de problemas.

2. Metodologia

A equipe do MiroMind propõe uma abordagem baseada em duas inovações principais: o aprimoramento das capacidades atômicas do agente em cada passo e a integração de um modo de raciocínio centrado na verificação.

A. Pipeline de Treinamento Integrado

O MiroThinker-1.7 é construído sobre modelos base (Qwen3 MoE) e passa por um pipeline de treinamento de quatro estágios:

Mid-training Agente (Pré-treinamento Agente): Um estágio crucial para fortalecer capacidades atômicas (planejamento, raciocínio, uso de ferramentas e sumarização). Utiliza uma supervisão em larga escala com dados de planejamento "cold-start", raciocínio condicionado ao contexto e sumarização intermediária. Isso torna cada passo individual mais confiável.
Ajuste Fino Supervisionado (SFT): O modelo aprende a replicar trajetórias de especialistas, focando em comportamentos estruturados de interação com ferramentas.
Otimização de Preferência (DPO): Alinha as decisões do modelo com objetivos de tarefa, priorizando a correção da resposta final sobre heurísticas estruturais rígidas.
Aprendizado por Reforço (RL): Utiliza Group Relative Policy Optimization (GRPO) em ambientes vivos para permitir exploração criativa e generalização, com controle de entropia para evitar colapso prematuro da política.

B. Arquitetura de Agente e Ferramentas

O agente opera em um loop de interação dual:

Loop de Passo: O agente alterna entre raciocínio, invocação de ferramentas e observação. Utiliza uma janela deslizante ( $K=5$ ) para gerenciar o contexto, mantendo o histórico completo de pensamentos e ações, mas filtrando observações antigas para economizar tokens.
Loop de Episódio: Se um episódio excede o orçamento de turnos ( $T_{max}$ ) sem sucesso, o agente reinicia limpo (descartando o contexto degradado) para evitar viés de erros acumulados.
Ferramentas: Inclui recuperação de informação (busca Google, extração de conteúdo via Jina), execução de código (sandbox Linux E2B) e transferência de arquivos.

C. Modo de Raciocínio "Heavy-Duty" (MiroThinker-H1)

A principal inovação do modelo H1 é a integração de verificação explícita em dois níveis:

Verificador Local: Durante a inferência, passos intermediários (decisões de planejamento, chamadas de ferramentas) são avaliados e refinados. Isso permite que o agente corrija erros cedo, explorando o espaço de soluções em vez de apenas confirmar preferências habituais do modelo.
Verificador Global: Audita a trajetória completa de raciocínio e compara caminhos de solução candidatos. O sistema só entrega a resposta final se ela for suportada por uma cadeia de evidências coerente e bem fundamentada. Se as evidências forem insuficientes, o agente é instruído a ressamplear ou completar o raciocínio.

D. Construção de Dados de Alta Qualidade

O sistema utiliza um framework de síntese de QA (Perguntas e Respostas) com dois pipelines:

Pipeline Baseado em Corpus: Gera grandes volumes de dados a partir de grafos de conhecimento estruturados.
Pipeline WebHop (Multi-hop Web): Expande o conhecimento via busca na web em tempo real, criando árvores de raciocínio verificadas hierarquicamente para garantir que as perguntas sejam solúveis, não triviais e baseadas em evidências reais.

3. Principais Contribuições

Escalabilidade de Interação Efetiva: Demonstra que melhorar a qualidade de cada passo (via mid-training e verificação) é mais eficaz do que apenas aumentar o número de passos.
Arquitetura de Verificação Dupla: Introduz o conceito de verificadores locais e globais integrados ao processo de raciocínio, permitindo correção de erros em tempo real e auditoria da evidência final.
Modelos Open-Source de Alta Performance: Lança o MiroThinker-1.7, o MiroThinker-1.7-mini (3B parâmetros ativados) e o MiroThinker-H1 como modelos de código aberto, oferecendo capacidades competitivas com eficiência superior.
Pipeline de Treinamento Unificado: Combina mid-training, SFT, DPO e RL em um fluxo coeso para criar agentes robustos.

4. Resultados

Os modelos foram avaliados em benchmarks de pesquisa aberta, raciocínio científico e análise financeira, superando agentes comerciais e de código aberto de ponta:

Desempenho Geral (Benchmarks de Navegação e Pesquisa):
- MiroThinker-H1 alcançou 88.2 no BrowseComp e 84.4 no BrowseComp-ZH, superando modelos como GPT-5.4, Gemini-3.1-Pro e Claude-4.6 Opus.
- No benchmark GAIA, alcançou 88.5, superando o GPT-5 em 12,1 pontos percentuais.
- No SEAL-0, atingiu 61.3, estabelecendo um novo recorde entre os modelos avaliados.
Domínios Especializados:
- No FrontierScience-Olympiad (raciocínio científico), o H1 obteve 79.0, superando o GPT-5.2-high e o Gemini-3-Pro.
- No FinSearchComp (finanças), alcançou 73.9, o melhor resultado entre os comparados.
Relatórios Longos:
- O H1 demonstrou a maior qualidade de relatório e fundamentação factual entre agentes de pesquisa profunda, superando soluções como Grok Deep Research e ChatGPT-5.4.
Eficiência (Escalabilidade de Interação):
- Comparado ao MiroThinker-1.5, o MiroThinker-1.7-mini (mesmo tamanho de parâmetros) alcançou 16,7% mais desempenho com 43% menos turnos de interação. Em tarefas de longo horizonte (HLE), a melhoria foi de 17,4% com 61,6% menos passos.
- O uso do Verificador Local reduziu o número de passos em tarefas difíceis de 1185 para 210 (aprox. 1/6), mantendo um aumento significativo de precisão (+26,4 pontos em subconjuntos difíceis).

5. Significância

O trabalho do MiroThinker-1.7 e H1 representa um avanço significativo na direção de agentes de IA autônomos confiáveis para tarefas complexas do mundo real.

Mudança de Paradigma: O artigo desafia a noção de que "mais passos = melhor resultado", propondo que a qualidade da interação e a verificação contínua são os fatores determinantes para o sucesso em raciocínio de longo horizonte.
Acessibilidade: Ao liberar modelos de alto desempenho (incluindo uma versão mini de 3B) como open-source, o trabalho democratiza o acesso a capacidades de pesquisa profunda que antes eram exclusivas de grandes modelos proprietários.
Aplicabilidade Prática: A arquitetura de verificação local e global oferece um roteiro para construir sistemas que não apenas "alucinem" menos, mas que ativamente auditem e corrijam seu próprio raciocínio, tornando-os viáveis para aplicações críticas em ciência, finanças e análise de dados.

Em suma, o MiroThinker-H1 estabelece um novo estado da arte (SOTA) em agentes de pesquisa, provando que a combinação de treinamento nativo de agente com mecanismos de verificação rigorosa é o caminho para a resolução confiável de problemas complexos.

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification