Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô superinteligente a jogar xadrez, dirigir um carro ou organizar uma festa. Para isso, você precisa escrever as "regras do jogo" em uma linguagem que o robô entenda perfeitamente. No mundo da Inteligência Artificial, essas regras são chamadas de domínios de planejamento.

O problema é que escrever essas regras manualmente é chato, difícil e propenso a erros. A ideia deste artigo é: "Por que não pedir para uma Inteligência Artificial (IA) escrever as regras para nós, baseada apenas numa descrição em linguagem natural?"

O problema é que, quando você pede isso para IAs atuais (como o ChatGPT), elas geralmente escrevem regras que parecem corretas, mas têm falhas ocultas. É como se um aluno escrevesse uma redação com a gramática perfeita, mas a lógica do texto estivesse totalmente errada.

Aqui está a explicação simples do que os autores fizeram para resolver isso:

1. O Grande Problema: A IA "Adivinha" Mal

Quando você diz para a IA: "Crie as regras para um jogo de blocos onde você pode empilhar blocos vermelhos e azuis", ela tenta criar o código. Muitas vezes, ela esquece que um bloco não pode estar em dois lugares ao mesmo tempo, ou que você não pode empilhar um bloco flutuando no ar. O resultado é um código que parece bom, mas não funciona na prática.

2. A Solução: O "Treinador" e o "Mapa do Tesouro"

Os autores criaram um sistema onde a IA não escreve as regras e pronto. Ela escreve, e depois recebe feedback (correções) de dois tipos de "treinadores":

O Árbitro (Validador de Planos): Imagine que a IA cria as regras e tenta simular um jogo. O Árbitro diz: "Ei, nessa situação, o robô tentou fazer uma jogada impossível porque as regras que você escreveu estão erradas."
O Cartógrafo de Marcos (Landmarks): Imagine que você está guiando alguém para um tesouro. O Cartógrafo diz: "Para chegar ao tesouro, você precisa passar pela ponte vermelha e precisa pegar a chave dourada. Se o seu mapa não tiver essas etapas obrigatórias, está errado."

3. A Grande Ideia: "Pensar antes de agir" (Busca Heurística)

Aqui está a parte mais criativa do artigo. Em vez de apenas pedir uma correção aleatória e esperar que a IA acerte, os autores criaram um sistema de exploração.

Imagine que você está tentando encontrar a saída de um labirinto:

Abordagem Antiga (Caminhada Aleatória): Você tenta uma porta. Se estiver fechada, tenta outra aleatória. Pode demorar muito ou nunca achar a saída.
Abordagem Nova (Busca Inteligente): O sistema cria um "mapa mental" de todas as possíveis correções que a IA poderia receber. Ele testa várias versões das regras ao mesmo tempo, como se estivesse explorando vários caminhos do labirinto simultaneamente, e escolhe o caminho que parece mais promissor para chegar à perfeição.

Eles chamam isso de "Raciocínio no Espaço do Modelo como Busca no Espaço de Feedback". Traduzindo: "Vamos testar várias versões das regras, usando as correções como bússola, até encontrarmos o conjunto perfeito."

4. O Resultado: O Que Eles Descobriram?

Feedback funciona: Quando a IA recebe correções (seja do Árbitro ou do Cartógrafo), as regras ficam muito melhores do que quando ela escreve sozinha.
A combinação é poderosa: Usar os dois tipos de correção juntos ajuda, mas nem sempre é a melhor opção para cada situação. Às vezes, um tipo de correção é melhor que o outro, dependendo do "jogo".
A Busca Inteligente vence: O método que usa a "busca no labirinto" (escolher as melhores correções) geralmente consegue criar regras perfeitas (100% corretas) em mais tentativas do que apenas tentar aleatoriamente.
Funciona em coisas novas: Eles testaram isso em jogos clássicos e em jogos totalmente novos que a IA nunca viu antes, e funcionou bem.

Resumo em uma Metáfora Final

Pense na IA como um arquiteto iniciante.

Ele desenha a planta da casa (o domínio) baseada na sua descrição.
O Validador é o engenheiro que diz: "Essa parede não pode segurar o teto, vai cair!"
O Marcador é o cliente que diz: "Eu preciso de uma porta de saída, você esqueceu!"
O Sistema de Busca é o gerente de obra que, em vez de apenas mandar o arquiteto corrigir uma coisa de cada vez, cria várias versões da planta, testa quais resistem melhor aos testes de engenharia e escolhe a melhor para ser construída.

Conclusão: O artigo mostra que, ao usar "treinadores" inteligentes e uma estratégia de busca para escolher as melhores correções, conseguimos transformar IAs que apenas "alucinam" regras em IAs que conseguem criar instruções de planejamento precisas e confiáveis, prontas para serem usadas no mundo real.

Each language version is independently generated for its own context, not a direct translation.

Título: Raciocínio no Espaço de Modelos como Busca no Espaço de Feedback para Geração de Domínios de Planejamento

1. Problema

A geração automática de domínios de planejamento (descrições formais de ações, objetos e restrições) a partir de descrições em linguagem natural permanece um desafio aberto, mesmo com o advento de Grandes Modelos de Linguagem (LLMs) e modelos de raciocínio.

O Desafio: Embora os LLMs consigam gerar domínios sintaticamente corretos, eles frequentemente falham em capturar a semântica correta, resultando em modelos que não funcionam na prática ou produzem planos inválidos.
Limitações Anteriores: Abordagens anteriores de feedback muitas vezes dependem de um único tipo de correção (apenas validação de planos), utilizam oráculos de "caixa preta" que não estão disponíveis na prática, ou são avaliadas em benchmarks limitados a domínios conhecidos, o que impede a generalização para domínios complexos ou novos.

2. Metodologia

Os autores propõem um framework agêntico que utiliza mecanismos de feedback simbólico e busca heurística no espaço de mensagens de feedback para refinar iterativamente a geração de domínios.

2.1. Pipeline de Geração

O processo é dividido em duas fases principais:

Construção Inicial do Domínio: O LLM gera ações e predicados baseados na descrição natural, com validação sintática imediata (usando um analisador PDDL) para garantir que o código seja válido antes de prosseguir.
Refinamento Iterativo: O domínio gerado ( $D'$ ) é submetido a um ciclo de feedback. Diferente de abordagens anteriores que usam apenas um feedback aleatório, este trabalho explora a busca no espaço de feedback.

2.2. Mecanismos de Feedback Simbólico

O sistema utiliza duas fontes principais de feedback, derivadas de um domínio de verdade absoluta (Ground Truth) e problemas de teste:

Feedback de Marcos (Landmarks): Utiliza marcos de ação disjuntivos (fatos que devem ocorrer em qualquer plano válido). Se o domínio gerado não exige que um marco específico ocorra, uma mensagem de erro é gerada indicando a necessidade de incluir essa ação.
Feedback de Validação de Planos (Plan Validation): Utiliza o validador VAL. Planos válidos no domínio original são testados contra o domínio gerado. Se um plano falhar, o validador identifica se o erro foi devido a precondições incorretas (ação não aplicável) ou efeitos incorretos (estado final não atinge o objetivo).

2.3. Busca Heurística no Espaço de Feedback

Em vez de escolher aleatoriamente qual mensagem de feedback enviar ao modelo (como em pipelines de "single random feedback"), os autores implementam uma busca de melhor primeiro (Best-First Search):

O espaço de estados é representado como uma árvore, onde cada nó é um domínio gerado ( $D'$ ).
Os filhos de um nó são gerados aplicando diferentes mensagens de feedback ao modelo.
Função Heurística: A busca é guiada por uma função que considera a profundidade do nó ( $G$ ) e o número de planos inválidos no domínio atual ( $H$ ). O objetivo é encontrar o caminho que minimiza os erros mais rapidamente.
Avaliação Automática: A qualidade é medida automaticamente usando a Equivalência de Domínio Heurística (HDE), que compara planos gerados no domínio original com planos no domínio gerado, sem necessidade de avaliação humana.

3. Contribuições Chave

Framework de Busca em Espaço de Feedback: Propõe tratar a seleção de feedback como um problema de busca, permitindo que o sistema explore estrategicamente quais correções (marcos vs. validação de planos) são mais eficazes para um domínio específico.
Uso de Feedback Simbólico Diversificado: Integra dois tipos distintos de feedback simbólico (marcos e validadores de planos) e demonstra como combiná-los ou selecioná-los dinamicamente.
Avaliação Robusta e Automatizada: Utiliza o benchmark HDE em domínios novos e desconhecidos pelos LLMs (incluindo domínios clássicos e domínios obscuros/novos), eliminando a dependência de revisores humanos.
Desempenho em Modelos de Pequena Escala: Demonstra que, com a estratégia correta de busca e feedback, modelos menores (como o gpt-5-mini) podem atingir qualidade máxima (100% HDE) em todos os domínios testados.

4. Resultados

Os experimentos foram realizados em 8 domínios (incluindo blocks, miconic, hiking, pacman, etc.) usando três modelos de linguagem (deepseek-chat, gpt-5-nano, gpt-5-mini).

Melhoria sobre a Linha de Base: Todos os pipelines com feedback superaram significativamente a linha de base sem feedback (N), confirmando que o feedback é essencial para a correção semântica.
Eficácia da Busca Heurística:
- A combinação de Landmarks + Validação de Planos com Busca (LVS) foi a abordagem mais robusta.
- Com o modelo gpt-5-mini, a abordagem LVS conseguiu gerar um domínio com 100% de pontuação HDE pelo menos uma vez para cada um dos domínios testados.
Complementaridade de Feedback: Não há um único tipo de feedback que domine todos os casos. Em alguns domínios, o feedback de marcos é superior; em outros, a validação de planos é melhor. A combinação com busca permite aproveitar os pontos fortes de cada um.
Exceções: Em alguns casos específicos (ex: domínio flow ou hiking com certos modelos), a busca sistemática às vezes performou pior que uma "caminhada aleatória" (random walk), sugerindo que o espaço de busca pode ser complexo e que a escolha do feedback aleatório pode, por vezes, evitar armadilhas locais que a heurística não consegue escapar.

5. Significado e Impacto

Acessibilidade: O trabalho reduz a barreira de entrada para o planejamento automatizado, permitindo que não especialistas descrevam domínios em linguagem natural e obtenham modelos formais funcionais.
Generalização: Ao testar em domínios novos e não vistos durante o treinamento dos LLMs, o estudo prova que a abordagem é generalizável e não apenas uma sobreajuste (overfitting) a benchmarks conhecidos.
Direção Futura: A descoberta de que feedbacks simples (como marcos) podem ser tão eficazes quanto validações complexas de planos sugere que a geração de domínios pode ser otimizada para ser mais leve e acessível. Os autores planejam explorar feedback baseado em invariantes e estudos de usabilidade com usuários reais.

Em resumo, o artigo demonstra que tratar a correção de modelos de LLM como um problema de busca estruturada em um espaço de mensagens de feedback é uma estratégia superior para gerar domínios de planejamento PDDL de alta qualidade, superando abordagens iterativas aleatórias e alcançando correção perfeita em cenários desafiadores.