Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a arrumar uma casa bagunçada. O problema com a maioria dos robôs inteligentes de hoje é que eles são como alunos que estudam apenas para a prova, mas esquecem tudo no dia seguinte. Se o robô tenta colocar um carro de brinquedo em uma caixa e a caixa é pequena demais, ele falha. Na próxima tentativa, ele tenta colocar o mesmo carro na mesma caixa pequena e falha de novo. Ele não "aprende" com o erro; ele apenas repete o mesmo ciclo de falhas infinitamente.

Este artigo apresenta uma nova ideia chamada "Planejamento Reflexivo em Tempo de Teste". É como dar ao robô uma "consciência" que funciona em três etapas, transformando-o de um aluno desatento em um artesão experiente que aprende com cada tentativa.

Aqui está como funciona, usando analogias do dia a dia:

1. A Ideia Central: O Robô que "Pensa Antes de Fazer"

A maioria dos robôs age por impulso: vê um problema, escolhe a primeira solução que vem à mente e faz. Se der errado, tenta de novo da mesma forma.

Este novo método faz o robô agir como um chef de cozinha experiente:

O Chef Novato (Robô Antigo): Vê um tomate e diz "Vou cortar agora!". Corta, percebe que a faca estava cega e estragou o tomate. Tenta de novo com a mesma faca cega.
O Chef Reflexivo (Nosso Robô): Antes de cortar, ele pensa: "Espera, essa faca parece cega. E se eu tentar a faca de serra? E se eu tentar a faca de pão?". Ele simula mentalmente várias opções, escolhe a melhor e só então age.

2. Os Três Tipos de "Reflexão" (O Segredo do Sucesso)

O robô usa três tipos de pensamento, que são como diferentes momentos de uma conversa consigo mesmo:

A. Reflexão "Enquanto Age" (O Simulador Mental)

Antes de o robô mover um braço, ele para e cria várias versões do futuro na sua cabeça.

Analogia: Imagine que você vai dirigir até o trabalho. Em vez de sair correndo, você para na garagem e pensa: "Se eu pegar a estrada A, vou ter trânsito. Se pegar a B, vou demorar mais, mas o caminho é livre. Se pegar a C, vou passar por um buraco."
O que o robô faz: Ele gera 4 ou 5 ações possíveis (ex: "colocar o brinquedo na caixa verde", "colocar na caixa laranja"). Ele usa sua inteligência para "pontuar" cada uma mentalmente. Ele descarta a ideia de colocar o carro na caixa pequena (que já tem um urso de pelúcia) e escolhe a caixa grande. Ele só executa a ação com a maior pontuação.

B. Reflexão "Depois de Agir" (O Diário de Bordo)

Depois que o robô faz a ação, ele olha para o resultado e escreve um relatório.

Analogia: Você tenta abrir um pote de geleia. Não abre. Você pensa: "Ah, a tampa estava muito apertada. Na próxima vez, vou usar um pano para ter mais aderência."
O que o robô faz: Ele analisa: "Tentei colocar o carro na caixa laranja. Falhou porque a caixa é pequena demais. Conclusão: Caixas laranjas são pequenas." Ele usa essa informação para atualizar seu cérebro imediatamente, mudando suas regras internas para não cometer o mesmo erro novamente.

C. Reflexão "Retroativa" (O Olhar para Trás com Sabedoria)

Às vezes, um erro só é percebido muito tempo depois.

Analogia: Você coloca uma cadeira no meio da sala para sentar. Parece uma boa ideia na hora. Mas 10 minutos depois, você percebe que aquela cadeira bloqueou a única porta de saída para o sofá. Você pensa: "Se eu soubesse que precisaria mover o sofá depois, não teria colocado a cadeira ali."
O que o robô faz: Se o robô colocou um objeto pequeno em um lugar que parecia bom, mas depois percebeu que aquele objeto bloqueou o caminho para um objeto maior, ele volta no tempo (na memória) e reavalia aquela decisão antiga. Ele diz: "Aquela ação que fiz há 5 minutos foi um erro, porque bloqueou o futuro." Isso ensina o robô a pensar a longo prazo, não apenas no momento.

3. Por que isso é revolucionário?

A grande inovação é que o robô não apenas guarda o texto do erro, ele muda seu próprio código enquanto está trabalhando.

Robôs Antigos: "Errei. Vou anotar no papel 'não colocar na caixa laranja'." (Na próxima tarefa, ele pode esquecer o papel).
Nosso Robô: "Errei. Vou reescrever meu cérebro agora para que eu sinta que a caixa laranja é ruim." Ele aprende de verdade, como um humano que, após queimar a mão no forno, aprende a ter medo do forno quente na próxima vez.

4. O Resultado na Vida Real

Os pesquisadores testaram isso em dois cenários:

Arrumando a Casa (Simulação): Tarefas complexas como "pegue o brinquedo, encontre a caixa certa e coloque dentro". O robô com reflexão conseguiu resolver muito mais tarefas do que os robôs que apenas tentavam e erravam.
Encaixar Objetos em Gabinetes (Robô Real): Eles colocaram o robô em um laboratório real. O robô conseguiu aprender, na hora, que um objeto não cabia em um lugar e ajustou sua estratégia para tentar outro lugar, sem precisar de um humano ensinando o passo a passo.

Resumo Final

Imagine que você está jogando um jogo de videogame difícil.

O robô comum morre no mesmo buraco 100 vezes, esperando que a sorte mude.
O robô reflexivo morre uma vez, pensa: "Ah, tem um buraco aqui. Vou pular antes de chegar perto." Ele aprende com o erro, atualiza sua estratégia e passa de fase.

Este papel mostra que, para criar robôs que realmente funcionam no mundo real (onde as coisas dão errado o tempo todo), eles precisam ter a capacidade de parar, pensar, simular o futuro e aprender com os erros no momento em que eles acontecem. É a diferença entre um computador que apenas calcula e uma máquina que realmente "aprende a viver".

Each language version is independently generated for its own context, not a direct translation.

Título: Aprendendo com Ensaios e Erros: Planejamento Reflexivo em Tempo de Teste para LLMs Corporificados

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) corporificados (que controlam robôs) possuem capacidades avançadas de raciocínio de tarefas de alto nível. No entanto, eles sofrem de uma fragilidade crítica: atuam como "oráculos estáticos" que não aprendem com falhas durante a execução.

Falha na Adaptação: Quando um robô comete um erro (ex: tentar colocar um objeto grande em uma caixa pequena), os métodos atuais não conseguem refletir sobre por que falhou ou ajustar seu modelo de decisão.
Repetição de Erros: A implantação torna-se uma sequência de ensaios independentes onde os mesmos erros se repetem, em vez de acumular experiência.
Limitações das Abordagens Atuais:
- Métodos baseados em reflexão verbal (ex: Reflexion) armazenam críticas como texto no contexto, mas não atualizam os parâmetros do modelo, tornando a aprendizagem transitória e frágil a mudanças de distribuição.
- Métodos baseados em modelos de mundo (internos) simulam resultados, mas frequentemente assumem dinâmicas fixas e pré-treinadas que podem estar erradas em cenários físicos reais.

2. Metodologia: Planejamento Reflexivo em Tempo de Teste (Reflective Test-Time Planning)

O artigo propõe um novo framework que unifica dois modos de reflexão inspirados na prática humana (Schön, 1992) e no aprendizado de duplo loop (Argyris, 1977): Reflexão na Ação (Reflection-in-Action) e Reflexão sobre a Ação (Reflection-on-Action), complementados por Reflexão Retrospectiva.

O sistema utiliza três instâncias de LLMs multimodais durante a implantação:

Modelo de Geração de Ação ( $\pi_\theta$ ): Gera ações candidatas.
Modelo de Reflexão Interna ( $V_{\phi_i}$ ): Avalia e pontua ações antes da execução.
Modelo de Reflexão Externa ( $V_{\phi_e}$ ): Avalia o resultado após a execução.

O processo funciona em três etapas cíclicas:

A. Reflexão na Ação (Pré-execução)

Em vez de escolher a primeira ação plausível (ganância), o agente gera $N$ ações candidatas diversas (amostragem com temperatura alta).
O Modelo de Reflexão Interna simula mentalmente cada candidato, gerando uma avaliação em linguagem natural e uma pontuação numérica (0-100).
A ação com a maior pontuação é selecionada e executada. Isso permite ao agente "tentar" mentalmente opções antes de comprometer recursos físicos.

B. Reflexão sobre a Ação (Pós-execução Imediata)

Após a execução, o Modelo de Reflexão Externa analisa o resultado real (sucesso/fracasso) e o feedback do ambiente.
Gera um feedback em linguagem natural explicando o que aconteceu e por que (ex: "A caixa estava cheia", "O objeto não coube").
Essas reflexões são armazenadas em um Buffer de Memória de Trabalho.

C. Reflexão Retrospectiva e Treinamento em Tempo de Teste (Pós-execução Tardio)

Para resolver o problema de atribuição de crédito de longo prazo (onde uma ação parece boa agora, mas bloqueia o progresso depois), o sistema realiza uma Reflexão Retrospectiva em marcos chave (ex: mudança de cômodo ou após falhas repetidas).
O modelo reavalia decisões passadas com o benefício da visão retrospectiva (hindsight), atribuindo novas pontuações baseadas no resultado final da tarefa.
Treinamento em Tempo de Teste: Essas reflexões (internas e retrospectivas) formam dados de treinamento auto-supervisionados para atualizar os modelos durante a execução:
1. Atualização do Modelo de Reflexão Interna: Treinamento supervisionado para alinhar as previsões pré-ação com a realidade observada (aprender a prever melhor).
2. Atualização da Política de Ação: Treinamento por Gradiente de Política (ex: REINFORCE) usando as pontuações retrospectivas como recompensa, favorecendo ações que levaram ao sucesso a longo prazo.

3. Contribuições Principais

Unificação de Reflexão: É o primeiro framework a integrar simultaneamente a simulação pré-ação (in-action) e o aprendizado pós-ação (on-action) com atualização de parâmetros em tempo real para agentes corporificados.
Aprendizado de Duplo Loop: O sistema não apenas aprende a executar tarefas (loop simples), mas também aprende a melhorar seu próprio processo de raciocínio e avaliação (loop duplo), corrigindo as premissas subjacentes de suas decisões.
Novos Benchmarks: Introdução de dois benchmarks desenhados especificamente para testar a adaptação a erros:
- Long-Horizon Household: Tarefas domésticas complexas com múltiplos cômodos, focando em recuperação de falhas e dependências sequenciais.
- MuJoCo Cupboard Fitting: Um ambiente controlado para isolar falhas geométricas de encaixe de objetos.
Validação em Robótica Real: Demonstração de que o framework funciona não apenas em simulação, mas também em um braço robótico físico (Franka Panda), corrigindo comportamentos de falha repetitiva.

4. Resultados Experimentais

Os experimentos demonstraram ganhos significativos em comparação com baselines de ponta (incluindo métodos de reflexão verbal, RL puro e modelos de mundo):

Tarefas Domésticas (Long-Horizon Household):
- O modelo completo alcançou uma taxa de sucesso média de 33,65%, superando o melhor baseline (3DLLM-Mem) que ficou em 12,20%.
- Em tarefas de "Ajuste" (Fitting), que exigem raciocínio geométrico complexo, o método atingiu 44,7% de sucesso, contra 10,6% do baseline mais próximo.
Tarefas de Encaixe (Cupboard Fitting):
- O método alcançou 60,2% de taxa de ajuste (fit rate) e 25,3% de taxa de colocação correta, superando significativamente métodos como PPO e DreamerV3.
Ablação e Dependência Mútua:
- Estudos de ablação mostraram que a remoção de qualquer um dos componentes (Reflexão na Ação ou Reflexão sobre a Ação) degrada severamente o desempenho.
- Curiosamente, remover apenas um componente às vezes resulta em desempenho pior do que remover ambos, indicando que a Reflexão na Ação sem correção retrospectiva gera confiança excessiva em avaliações erradas, enquanto a Reflexão sobre a Ação sem seleção prévia desperdiça aprendizado em ações mal escolhidas.
Generalização: O modelo demonstrou capacidade de generalização para ambientes não vistos (HM3D), mantendo vantagens sobre baselines mesmo com uma grande mudança de domínio (de sintético para fotorealista).
Custo Computacional: Embora o método introduza um overhead de ~3x no tempo de inferência por passo, experimentos de "tempo igualado" mostraram que baselines com mais tempo de execução (mais passos) não melhoram, pois continuam repetindo erros. O tempo gasto em reflexão é convertido em aprendizado estrutural.

5. Significado e Impacto

Este trabalho representa um avanço fundamental na direção de agentes robóticos autônomos e resilientes.

Mudança de Paradigma: Transita da visão de LLMs como políticas fixas para agentes que aprendem continuamente durante a implantação (test-time learning).
Resiliência: Permite que robôs recuperem-se de erros físicos e de planejamento sem intervenção humana, essencial para a operação em ambientes domésticos não estruturados.
Interpretabilidade: Ao usar reflexões verbais como sinal de treinamento, o processo de aprendizado permanece interpretável, permitindo que humanos entendam por que o robô mudou sua estratégia (ex: "Não coloquei o carro na caixa verde porque bloquearia o urso").
Eficiência: Demonstra que a computação dedicada à reflexão e ao ajuste de parâmetros em tempo real é mais valiosa do que simplesmente aumentar o número de tentativas (rollouts) sem aprendizado.

Em resumo, o artigo propõe que a verdadeira inteligência corporificada não reside apenas em planejar o futuro, mas na capacidade de refletir sobre o passado imediato e ajustar o próprio mecanismo de decisão para evitar erros futuros.