Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a sobreviver e construir coisas no Minecraft. O grande desafio não é fazer o robô entender o que é uma "espada" ou um "bloco de pedra". O desafio é fazer com que ele aprenda com os seus erros e acertos ao longo do tempo, sem precisar ser reprogramado a cada falha.

Aqui está uma explicação simples do artigo "Steve-Evolving", usando analogias do dia a dia:

1. O Problema: O "Esquecimento" do Robô

Até agora, a maioria dos robôs inteligentes no Minecraft funcionava como um estudante que estuda para uma prova, tira uma nota, e depois esquece tudo sobre o que errou.

Se o robô tentou minerar ouro e caiu em lava, ele apenas tentava de novo da mesma forma, esperando que a sorte mudasse.
Ele acumulava "memória" de forma bagunçada, como uma pilha de papéis no chão onde você não sabe onde está o que precisa.

O problema não é que o robô é "burro" em tomar decisões de um segundo para o outro. O problema é que ele não organiza a experiência. Ele não transforma "cair na lava" em uma regra de ouro como "nunca se aproxime de lava sem botas de ferro".

2. A Solução: Steve-Evolving (O Robô que Aprende de Verdade)

O Steve-Evolving é um novo sistema que faz o robô evoluir como um humano experiente. Em vez de apenas "lembrar" do passado, ele diagnostica o que deu errado e cria regras para o futuro.

Pense nele como um Mestre Carpinteiro ensinando um aprendiz:

O Aprendiz (O Robô): Tenta fazer algo (ex: fazer uma espada de ferro).
O Diagnóstico (O Olho Clínico): Se o aprendiz erra, o Mestre não diz apenas "falhou". Ele diz: "Você não tinha o martelo certo, estava com pressa e o bloco de madeira estava molhado".
- No papel, isso é chamado de "Diagnóstico de Alta Granularidade". O sistema não vê apenas "Sucesso" ou "Fracasso". Ele vê por que falhou (ex: "travou na porta", "ferramenta errada", "caminhou em círculos").
A Evolução (O Caderno de Regras): O sistema pega essa informação e cria duas coisas:
- Habilidades (O "Como Fazer"): Se o robô conseguiu fazer algo difícil, ele escreve um manual passo a passo: "Para fazer uma espada de diamante, primeiro você precisa de carvão, depois ferro, e só então o diamante".
- Guardrails (O "Não Faça"): Se o robô caiu na lava, o sistema cria uma regra de segurança: "Se houver lava perto, pare e não tente pular". Isso é como um "freio de mão" automático que impede o robô de cometer o mesmo erro duas vezes.

3. Como Funciona a "Mágica" (Em 3 Passos)

O sistema funciona em um ciclo contínuo, como um ciclo de aprendizado de direção:

Passo 1: O Registro (A Câmera de Segurança)
Toda vez que o robô tenta algo, ele grava um "diário" detalhado. Não é apenas um vídeo; é um relatório técnico que diz: "Estava aqui, fiz isso, o resultado foi isso, e o motivo do erro foi X".
- Analogia: É como um médico que não apenas anota "paciente doente", mas anota "febre alta, tosse seca, causa provável: gripe".
Passo 2: A Destilação (O Resumão Inteligente)
O sistema lê esses milhares de diários e os transforma em conhecimento útil.
- Ele pega os sucessos e cria "receitas de bolo" (habilidades reutilizáveis).
- Ele pega os fracassos e cria "leis de trânsito" (regras de segurança que proíbem certas ações).
- Analogia: É como transformar milhares de acidentes de trânsito em um novo código de trânsito mais seguro para todos os motoristas.
Passo 3: O Controle em Loop (O GPS em Tempo Real)
Quando o robô precisa fazer uma nova tarefa, ele consulta esse "livro de regras" antes de agir.
- Se ele vai tentar algo que já deu errado antes, o sistema avisa: "Ei, não faça isso! Use a regra de segurança que criamos ontem".
- Se ele travar no meio do caminho, o sistema diz: "Esqueça o plano antigo, tente o desvio que aprendemos na última vez".
- O mais legal: O robô não precisa ser reprogramado. Ele apenas "lê" as novas regras e fica mais esperto instantaneamente.

4. Os Resultados: De Novato a Mestre

Os pesquisadores testaram isso no Minecraft, pedindo tarefas muito longas e complexas (como construir uma casa de diamante, o que exige coletar muitos recursos e fazer várias ferramentas).

Robôs antigos (Sem evolução): Ficavam presos, repetiam erros e desistiam.
Steve-Evolving: Começou devagar, mas conforme acumulava experiências, ficou cada vez melhor.
- No início, ele falhava muito.
- Depois de aprender com os erros, ele começou a criar regras de segurança e habilidades.
- No final, ele completou tarefas que os robôs mais antigos nem conseguiam começar.

Resumo Final

O Steve-Evolving é como transformar um robô que apenas "tenta e erra" em um mestre artesão. Ele não apenas acumula memórias de papéis no chão; ele organiza essas memórias em um manual de instruções vivo.

Se ele cai na lava, ele cria uma regra: "Lava = Perigo".
Se ele faz uma espada, ele cria uma receita: "Espada = Ferro + Madeira".

Com o tempo, o robô não precisa mais de um programador para dizer o que fazer. Ele usa seu próprio "livro de regras" (que ele mesmo escreveu) para navegar pelo mundo, evitando erros passados e repetindo sucessos antigos. É a diferença entre ter um cérebro que apenas grava vídeos e um cérebro que aprende a pensar.

Each language version is independently generated for its own context, not a direct translation.

Título: Steve-Evolving: Evolução Corporificada em Mundo Aberto via Diagnóstico de Alta Granularidade e Destilação de Conhecimento de Dupla Trilha

1. Problema Identificado

O artigo aborda o desafio de criar agentes corporificados (embodied agents) capazes de realizar tarefas de longo prazo em mundos abertos complexos, como o Minecraft.

O Gargalo: A principal limitação não é a qualidade do planejamento de um único passo (onde os Grandes Modelos de Linguagem - LLMs - já performam bem), mas sim como a experiência de interação é organizada e evolui ao longo do tempo.
A Lacuna Atual: Métodos existentes (como JARVIS-1 ou Optimus-1) tendem a acumular trajetórias brutas ou falhas apenas como exemplos de in-context learning. Eles carecem de:
1. Diagnóstico Estruturado: Falhas em ambientes físicos são complexas (obstrução de terreno, falta de ferramentas, travamento em GUI), mas os sistemas atuais frequentemente retornam apenas um sinal binário (sucesso/fracasso), perdendo a causa raiz.
2. Evolução Hierárquica: A experiência permanece no formato original de "caso de instância" em vez de evoluir para regras abstratas, padrões de comportamento e restrições executáveis. Isso impede que o agente generalize seu aprendizado de forma eficiente, limitando seu crescimento de capacidade.

2. Metodologia: Steve-Evolving

O Steve-Evolving é um framework não paramétrico de auto-evolução que opera em um ciclo fechado, sem atualizar os pesos do modelo subjacente. Ele transforma interações brutas em ativos de conhecimento estruturados através de três fases principais:

Fase 1: Ancoragem da Experiência (Experience Anchoring)

O objetivo é transformar interações físicas em documentos estruturados com alta densidade de informação.

Diagnóstico de Alta Granularidade: Em vez de apenas "sucesso/fracasso", o sistema executa um monitoramento composicional que gera:
- Resumo de diferenças de estado (mudanças no inventário, posição).
- Causas de falha enumeradas (11 tipos, como NAV_STUCK, GUI_BLOCKED, TOOL_MISSING).
- Indicadores contínuos e detecção de estagnação/loops.
Estrutura de Dados: Cada tentativa de subobjetivo é registrada como uma tupla estruturada: <estado prévio, ação, resultado do diagnóstico, estado posterior>.
Espaço de Experiência de Três Níveis:
1. Camada de Documento: Registros brutos e detalhados.
2. Camada de Índice: Indexação multidimensional (assinaturas de condição, hash espacial, tags semânticas) para recuperação rápida.
3. Camada de Resumo: Generalização de trajetórias periódicas para resumos de alto nível.

Fase 2: Destilação de Experiência (Experience Distillation)

Um mecanismo de dupla trilha converte os documentos de experiência em conhecimento reutilizável:

Trilha Positiva (Habilidades): Trajetórias bem-sucedidas são generalizadas em Habilidades (Skills) reutilizáveis. Cada habilidade inclui pré-condições explícitas, fluxo de ações estáveis e critérios de verificação.
Trilha Negativa (Guardrails/Restrições):
- Nível de Subobjetivo: Falhas recorrentes são convertidas em Guardrails Executáveis que proíbem ações específicas sob certas condições (ex: "não navegar perto de lava se o inventário estiver vazio").
- Nível de Tarefa: Falhas de planejamento global (ex: falta de ferramentas essenciais para uma jornada longa) geram restrições procedimentais para evitar deadlocks futuros.

Fase 3: Controle em Loop Fechado Orientado a Conhecimento

O conhecimento destilado é injetado no planejador do LLM para guiar a tomada de decisão.

Recuperação Composicional: O sistema recupera habilidades e guardrails relevantes baseados no contexto atual (bioma, ferramentas, objetivos).
Planejamento e Replanejamento Local:
- As habilidades atuam como demonstrações few-shot para coerência.
- Os guardrails atuam como restrições negativas (negative prompt guardrails).
- Se um erro recorrente for detectado durante a execução, o sistema dispara um Replanejamento Local, atualizando as restrições ativas e gerando uma nova rota de ação sem intervenção humana.

3. Principais Contribuições

Paradigma de Evolução Hierárquica: Redefine a experiência interativa de um corpus estático de recuperação para um ativo estruturado com ciclo de vida (Registro $\to$ Documento $\to$ Conhecimento Abstrato $\to$ Restrição de Planejamento).
Diagnóstico de Execução de Alta Densidade: Desenvolve um sistema de diagnóstico que extrai sinais estruturados além do binário, permitindo a atribuição precisa de causas de falha em ambientes 3D complexos.
Mecanismo de Destilação de Dupla Trilha: Estabelece um ciclo automático de extração de conhecimento defensivo (guardrails) e ofensivo (habilidades) a partir de diagnósticos finos.
Validação Empírica: Demonstra que a evolução hierárquica supera estratégias de acumulação de instâncias estáticas, especialmente em tarefas de alta dependência e longo horizonte.

4. Resultados Experimentais

Os experimentos foram realizados no ambiente Minecraft (suite de benchmarks MCU) com 7 grupos de tarefas (de ferramentas de madeira até armaduras de diamante).

Desempenho Geral: O Steve-Evolving superou consistentemente as linhas de base (JARVIS-1, Optimus-1) em todos os modelos de linguagem (LLMs) testados (Qwen, GLM, Gemini).
Melhoria em Tarefas Complexas: A vantagem foi mais pronunciada em grupos de tarefas de alto nível (Ferro, Redstone, Diamante, Armadura), onde a recuperação de falhas e o planejamento de longo prazo são críticos.
- Exemplo: Com o modelo Gemini-3-pro, a taxa de sucesso geral subiu de 47.63% (Optimus-1) para 53.37% (Steve-Evolving).
Crescimento Contínuo: Diferente das linhas de base, a taxa de sucesso do Steve-Evolving aumentou à medida que a experiência se acumulava, confirmando o efeito da evolução hierárquica.
Estudos de Ablação:
- Remover a injeção de conhecimento (w/o KnowledgeVisibility) causou a maior queda de desempenho, provando que o conhecimento destilado é essencial.
- Remover a destilação de guardrails (w/o GuardDistill) reduziu significativamente a capacidade de recuperação de erros recorrentes.
- O modo "Apenas Planejamento" (Planning Only) falhou completamente (0% de sucesso) nas tarefas difíceis, mostrando que o planejamento sem conhecimento de loop fechado é insuficiente.

5. Significado e Impacto

O trabalho propõe uma mudança de paradigma fundamental na construção de agentes corporificados:

Do Acúmulo à Evolução: Em vez de apenas "lembrar" mais casos, o agente deve "aprender a aprender", transformando dados brutos em regras e restrições executáveis.
Autonomia Robusta: Ao integrar diagnóstico fino com planejamento orientado a conhecimento, o agente torna-se capaz de lidar com falhas imprevistas em ambientes dinâmicos sem necessidade de re-treinamento do modelo base.
Escalabilidade: O framework é não paramétrico, o que significa que ele pode escalar para tarefas cada vez mais complexas apenas acumulando e refinando conhecimento, sem os custos computacionais de atualizar os pesos de um modelo de linguagem massivo.

Em resumo, o Steve-Evolving demonstra que a chave para a inteligência corporificada em mundos abertos não está apenas em modelos de linguagem mais potentes, mas na arquitetura de gestão de experiência que permite a evolução contínua de habilidades e a prevenção sistemática de erros.