GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô a resolver um quebra-cabeça complexo, como organizar caixas, entregar jornais ou gerenciar um laboratório de pesquisa. O problema é que cada vez que o cenário muda um pouco (mais caixas, mais pessoas, mais obstáculos), o robô precisa aprender tudo de novo do zero, o que é lento e caro.

Aqui entra o GenePlan, uma nova ideia criada por pesquisadores do J.P. Morgan AI Research. Vamos explicar como funciona usando uma analogia simples: a "Fábrica de Receitas Evolutiva".

1. O Problema: O Chef que Esquece Tudo

Normalmente, quando usamos Inteligência Artificial (como o GPT-4) para planejar ações, ela age como um chef que tenta cozinhar um prato novo toda vez que você pede. Ele lê o pedido, tenta adivinhar os ingredientes e cozinhar. Às vezes, ele acerta, mas muitas vezes faz um prato sem graça ou queimado. Além disso, ele não "aprende" com os erros de forma permanente; na próxima vez, ele começa do zero.

2. A Solução: A Evolução das Receitas (GenePlan)

O GenePlan muda a regra do jogo. Em vez de pedir para a IA criar uma solução única, ele cria uma população de "receitas" (pequenos programas em Python) e as faz evoluir, como na natureza.

Pense no GenePlan como um chef de cozinha que contrata um time de cozinheiros e os coloca em uma competição de TV:

A Geração 1 (Os Iniciantes): O sistema pede para a IA criar várias receitas iniciais. Algumas são boas, outras são terríveis (o robô cai no buraco ou esquece de pegar o jornal).
O Teste de Sabores (Avaliação): Cada receita é testada em vários cenários diferentes (entregar 5 jornais, depois 10, depois 20). O sistema mede: "Quanto tempo levou? Quantos passos foram necessários?".
A Seleção Natural (O Pulo do Gato): As receitas que falharam ou foram lentas são descartadas (como cozinheiros que não passam na prova). As receitas que funcionaram bem são mantidas.
A Mistura e a Mutação (Cruzamento e Mutação): Aqui está a mágica. O GenePlan pega as duas melhores receitas e as "copia e cola" uma na outra (como misturar o molho da Receita A com o tempero da Receita B). Depois, ele faz pequenas alterações aleatórias (mutação), como "adicionar um pouco mais de sal" ou "trocar o forno por uma panela".
A Nova Geração: Essas novas receitas misturadas são testadas novamente. Com o tempo, a população inteira de receitas fica cada vez mais eficiente.

3. O Resultado: O "Super Chef"

Depois de várias rodadas dessa evolução, o GenePlan entrega uma única receita perfeita.

Não é mais uma conversa: Diferente de pedir para a IA "pensar" a cada vez, o GenePlan gera um código de computador (um plano generalizado) que você pode salvar e usar para sempre.
Velocidade Relâmpago: Uma vez que esse "Super Chef" é criado, ele resolve novos problemas em menos de meio segundo. É como ter um GPS que já conhece o caminho de cor, em vez de ter que perguntar a alguém a cada esquina.
Qualidade: O teste mostrou que esse método é tão bom quanto os melhores sistemas de planejamento do mundo (como o Fast Downward), mas muito mais rápido e barato de criar.

4. Por que isso é importante?

Imagine que você tem uma empresa de entregas.

Sem GenePlan: Você paga caro para a IA pensar em um roteiro para cada novo dia de entregas.
Com GenePlan: Você paga uma vez (cerca de US$ 1,80 por domínio) para a IA "evoluir" o roteiro perfeito. Depois disso, o sistema roda sozinho, super rápido, resolvendo milhares de entregas por dia sem gastar mais nada.

Resumo da Ópera

O GenePlan não tenta adivinhar a resposta certa na hora. Ele cria um laboratório de testes onde milhares de ideias são geradas, as ruins são jogadas fora, as boas são misturadas e melhoradas, até que reste apenas a melhor estratégia possível para aquele tipo de problema. É como se a natureza tivesse que criar um super-herói para resolver quebra-cabeças, e a IA fosse o processo de evolução que o criou.

Em suma: O GenePlan transforma a IA de um "pensador lento" em um "criador de ferramentas rápidas e inteligentes".

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models", apresentado em português:

1. O Problema

O artigo aborda as limitações dos Grandes Modelos de Linguagem (LLMs) na execução de tarefas de planejamento sequencial (especificamente em domínios descritos em PDDL - Planning Domain Definition Language). Embora os LLMs tenham avançado em raciocínio e geração de código, eles frequentemente falham ao gerar planos de alta qualidade diretamente ou ao lidar com problemas de planejamento generalizado (onde uma única estratégia deve resolver múltiplas instâncias de um mesmo domínio).

Abordagens anteriores focavam em:

Soluções "satisfatórias" (satisficing): Gerar um plano que funciona, sem otimizar sua qualidade (comprimento/custo).
Tradução direta: Converter PDDL para linguagem natural ou vice-versa, o que introduz ambiguidades e erros.
Falta de otimização: A maioria dos métodos baseados em LLM não trata o planejamento como um problema de otimização para minimizar o número de ações.

O objetivo é criar um planejador generalizado (um código Python reutilizável) que minimize o comprimento do plano (número de ações) através de diversas instâncias de problemas em um domínio específico, superando a performance de métodos puramente baseados em prompting e competindo com planejadores clássicos de última geração.

2. Metodologia: GenePlan

O GenePlan (GENeralized Evolutionary Planner) é um framework que trata o planejamento generalizado como um problema de otimização, utilizando um algoritmo evolutivo assistido por LLM.

Arquitetura e Fluxo de Trabalho:

Formulação de Otimização: O objetivo é encontrar uma função $\Phi$ (escrita em Python) que minimize o custo médio dos planos ( $\sum c(\Phi(\Pi))$ ) sobre um conjunto de tarefas de treinamento $\Pi_{train}$ .
População de Candidatos: O sistema mantém uma população de "planejadores" (funções Python get_plan).
Ciclo Evolutivo Assistido por LLM:
- Seleção: Planejadores são selecionados para serem "pais" com base em sua aptidão (fitness), que é o comprimento médio do plano gerado nas tarefas de treinamento. Utiliza-se uma função de temperatura decrescente para equilibrar exploração (início) e exploração (fim).
- Crossover e Mutação via LLM: Em vez de operadores genéticos tradicionais de código, o LLM recebe um prompt contendo exemplos de planejadores pais (com seus códigos e feedback de erro/score). O LLM é instruído a realizar "crossover" (combinar componentes algorítmicos) e "mutação" (introduzir melhorias, eliminar ações redundantes) para gerar um novo código Python.
- Validação e Execução: O código gerado é validado via AST Parser (para garantir segurança e sintaxe), compilado e executado. Um validador de planos PDDL verifica se o plano gerado é válido e calcula o score.
- Substituição (Elitismo): Após um número máximo de gerações ou preenchimento do banco de dados, os piores planejadores são removidos, mantendo-se apenas os melhores para a próxima geração.
Saída: Ao final do processo, extrai-se o melhor planejador Python, que é interpretável e capaz de resolver novas instâncias do domínio rapidamente.

3. Principais Contribuições

Novo Framework de Otimização: Integração bem-sucedida de LLMs dentro de um ciclo evolutivo para otimizar diretamente a qualidade do plano (comprimento), e não apenas a viabilidade.
Planejadores Generalizados em Python: Geração de código Python executável e interpretável que atua como um "cérebro" para o domínio, capaz de resolver instâncias desconhecidas em tempo real.
Superação de Baselines LLM: Demonstração de que o prompting evolutivo supera significativamente técnicas como Chain-of-Thought (CoT) padrão em tarefas de planejamento.
Análise de Custo e Eficiência: Evidência de que, embora a geração do planejador tenha um custo inicial (tempo de computação), o custo marginal para resolver novas instâncias é extremamente baixo e rápido.

4. Resultados Experimentais

O método foi avaliado em 8 domínios PDDL (6 benchmarks existentes e 2 novos criados: Trading e Research).

Desempenho (Score SAT):
- O GenePlan alcançou uma média de 0.91 no Score SAT (uma métrica onde 1.0 é o plano ótimo).
- Isso é comparável ao planejador clássico de última geração Fast Downward (configuração de 30 minutos, score 0.93).
- Superou significativamente os baselines baseados em LLM: Chain-of-Thought com GPT-4o teve média de 0.64.
Velocidade de Inferência:
- Uma vez gerado, o planejador GenePlan resolve novas instâncias em média 0.49 segundos por tarefa.
- Isso é ordens de magnitude mais rápido que o Fast Downward, que leva minutos por instância.
Custo:
- O custo médio para gerar um planejador usando GPT-4o foi de apenas $1.82 por domínio.
- O uso de GPT-4o mini reduziu o custo para $0.10, mas com uma queda significativa na qualidade do plano (score 0.64).
Estudos de Ablação:
- Remover nomes específicos do domínio (ablação) fez o desempenho cair para zero, destacando a importância do contexto semântico para o LLM.
- O uso de resumos em linguagem natural em vez do PDDL completo funcionou bem em domínios simples, mas falhou em domínios complexos.
Limitações:
- Em domínios sem estratégias simples generalizáveis (ex: Sokoban ou Blocksworld com restrições irreversíveis), o GenePlan tentou construir algoritmos de busca internos e falhou, enquanto o Fast Downward (com busca heurística) teve sucesso. Isso indica que o GenePlan é ideal para domínios com estratégias estruturadas, mas não substitui a busca exaustiva em todos os cenários.

5. Significado e Conclusão

O artigo demonstra que é possível evoluir planejadores generalizados de alta qualidade combinando a capacidade de raciocínio e geração de código dos LLMs com a robustez dos algoritmos evolutivos.

Interpretabilidade: Diferente de modelos de caixa-preta, o GenePlan gera código Python legível, permitindo que humanos entendam e depurem a lógica do planejador.
Eficiência Operacional: A abordagem é economicamente viável e oferece uma vantagem de latência crítica para aplicações em tempo real, onde a reutilização do planejador gerado compensa o custo inicial de treinamento/evolução.
Futuro: Os autores sugerem o uso de LLMs como orquestradores para selecionar dinamicamente entre planejadores evolutivos (GenePlan) e buscadores tradicionais, dependendo da complexidade e natureza do domínio do problema.

Em resumo, o GenePlan representa um avanço significativo ao transformar o LLM de uma ferramenta de geração de planos pontuais para um otimizador de algoritmos de planejamento, gerando soluções reutilizáveis, rápidas e de alta qualidade.

GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

1. O Problema: O Chef que Esquece Tudo

2. A Solução: A Evolução das Receitas (GenePlan)

3. O Resultado: O "Super Chef"

4. Por que isso é importante?

Resumo da Ópera

1. O Problema

2. Metodologia: GenePlan

Arquitetura e Fluxo de Trabalho:

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information