Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um robô: "Traga quatro lanches para a mesa de jantar". O robô olha ao redor, mas descobre que a gaveta onde ficam os talheres está trancada e só tem três lanches disponíveis, além de uma lata de refrigerante na prateleira.

Um robô "tradicional" ou um sistema de IA muito rígido provavelmente diria: "Erro! Não é possível cumprir a ordem. Falha." e pararia tudo.

Um sistema de IA baseado apenas em "chat" (como o ChatGPT comum) poderia alucinar e dizer: "Ok, vou abrir a gaveta trancada e pegar o quarto lanche que não existe", criando um plano impossível que quebraria o robô na hora da execução.

O artigo "Context Matters!" (O Contexto Importa!) apresenta uma nova abordagem chamada ContextMatters. É como se o robô tivesse ganhado um "senso comum" e uma "capacidade de negociação" para lidar com a realidade imperfeita do mundo.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: A Rigidez vs. A Alucinação

Pense no planejamento de tarefas robóticas como uma receita de bolo.

Planejadores Clássicos (PDDL): São como um chef que segue a receita à risca. Se faltar um ingrediente (ex: ovos), ele não faz o bolo e diz "não dá". É seguro, mas não é flexível.
IAs Generativas (LLMs): São como um cozinheiro criativo que nunca viu uma receita. Ele pode inventar um bolo delicioso, mas às vezes tenta usar "pó de estrelas" ou "água da lua" porque não sabe que esses ingredientes não existem na sua cozinha. É criativo, mas perigoso.

2. A Solução: O "Detetive de Contexto"

O ContextMatters é a fusão perfeita entre os dois. Ele funciona como um Gerente de Eventos experiente.

Imagine que você contratou um gerente para organizar uma festa. O cliente pede: "Quero 3 copos de vinho e 4 sanduíches".

O gerente vai à cozinha (o ambiente 3D do robô).
Ele vê que só há 2 copos de vinho e 3 sanduíches.
O que ele faz? Ele não cancela a festa (como o robô rígido) e não inventa vinho mágico (como a IA alucinada).
Ele propõe uma alternativa viável: "Como só temos 2 copos de vinho, vou servir 2 copos de vinho e 1 de suco (que é uma bebida, então cumpre a função de 'bebida'). E como só temos 3 sanduíches, vou servir 3 sanduíches e 1 fruta (que também é comida)."

O robô ContextMatters faz exatamente isso através de dois passos mágicos:

A. O "Deslizamento" (Shifting)

É como mudar o foco da busca. Se o robô precisa de um "copo de vinho" e não acha, ele pergunta à IA: "O que mais serve como bebida aqui?". Se a IA diz "tem suco", o robô muda o plano para pegar o suco. Ele adapta o onde e o como baseado no que realmente existe.

B. O "Relaxamento" (Relaxation)

É como um negociador que entende que "perfeito" é inimigo do "feito".

Meta original: "Traga 4 lanches específicos".
Relaxamento: "Traga 4 coisas comestíveis".
Relaxamento ainda maior: "Traga 3 coisas comestíveis".

O sistema testa essas versões mais "frouxas" do pedido até encontrar algo que o robô consiga realmente fazer, sem perder a essência do que o humano queria (alguém com fome sendo alimentado).

3. Como Funciona na Prática (O Ciclo de Feedback)

O sistema funciona em um loop inteligente, como um jogo de "Quente ou Frio":

Tenta planejar: O robô cria um plano baseado no que vê.
Verifica a realidade: Um "juiz" (um verificador simbólico) olha o plano e diz: "Ei, você planejou pegar o copo da gaveta, mas a gaveta está trancada!".
Correção ou Adaptação:
- Se for um erro de lógica, o robô conserta o plano.
- Se for um problema real (o objeto não existe), o robô usa a IA para relaxar o objetivo e propor uma nova meta (pegar o suco em vez do vinho).
Executa: Só quando o plano é 100% possível no mundo real, o robô executa.

4. O Resultado: Robôs que Pensam "Fora da Caixa"

Os testes mostraram que essa abordagem é muito superior.

Em testes de computador, eles melhoraram a taxa de sucesso em 52% comparado aos melhores sistemas atuais.
Eles testaram isso em um robô real (TIAGo) em uma casa de verdade.
- O Cenário: O humano pediu "4 lanches para crianças".
- O Problema: Só havia 3 lanches.
- A Solução do Robô: O robô percebeu que faltava um lanche. Em vez de falhar, ele trocou o quarto lanche por uma latinha de refrigerante (que é uma bebida, mas serve para a mesa). Ele até percebeu que não deveria pegar uma garrafa de vinho (perigoso para crianças), mostrando que entende o contexto social.

Resumo em uma Frase

O ContextMatters ensina os robôs a não serem nem "rígidos demais" (que desistem quando algo falta) nem "sonhadores demais" (que inventam coisas que não existem), mas sim práticos e inteligentes, capazes de dizer: "Não consigo fazer exatamente o que você pediu, mas posso fazer algo muito parecido que vai funcionar perfeitamente com o que tenho aqui."

É a diferença entre um robô que diz "Erro" e um robô que diz "Deixe-me ver o que consigo fazer para te ajudar".

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Agentes corporificados (robôs) enfrentam um desafio fundamental ao planejar e agir em ambientes 3D reais e complexos: a discrepância entre a intenção do usuário e as restrições físicas e perceptivas do ambiente.

Planejamento Clássico (PDDL): Oferece garantias de corretude, mas falha quando a percepção é ruidosa ou quando precondições não são atendidas (ex: um objeto necessário está bloqueado). Se o objetivo não for satisfatível, o planejador simplesmente falha, sem oferecer uma maneira de adaptar a tarefa.
Planejadores Baseados em LLMs: Utilizam raciocínio de senso comum, mas frequentemente alucinam precondições inexistentes ou propõem ações inviáveis e inseguras.
Limitação Atual: Abordagens híbridas existentes (como o DELTA) combinam LLMs e PDDL, mas ainda tendem a falhar quando o ambiente não corresponde exatamente ao domínio modelado, sem um mecanismo principiado para modificar o objetivo mantendo a intenção original do usuário.

2. Metodologia: ContextMatters

Os autores propõem o ContextMatters, uma arquitetura de planejamento bidimensional que funde o raciocínio de LLMs com a validação formal de planejadores clássicos. O núcleo da abordagem é a relaxação hierárquica de objetivos baseada em dois eixos: funcionalidade (o que alcançar) e viabilidade (onde/como alcançar).

Arquitetura e Operadores

O sistema opera sobre Gráficos de Cena 3D (3DSG) e utiliza dois operadores principais:

Operador de Deslocamento Situacional ( $\Gamma_{shift}$ ): Adapta a compreensão do domínio do agente ao ambiente real. Se o planejador falha, o sistema refina a representação do domínio (objetos, predicados, ações) para alinhar-se com o 3DSG, sem alterar o objetivo inicialmente.
Operador de Relaxação ( $\Delta_{rel}$ ): Quando o deslocamento não é suficiente, o sistema relaxa o objetivo. Isso envolve:
- Substituir constantes por tipos ou conjuntos (ex: "garfo específico" $\rightarrow$ "qualquer garfo").
- Remover conjunções ou generalizar predicados.
- Introduzir disjunções (ex: "suco ou água").
- O objetivo relaxado ( $G'$ ) é semanticamente equivalente, mas menos restritivo que o original ( $G$ ).

Fluxo de Execução

O processo segue um ciclo iterativo (descrito no Algoritmo 1):

Geração de Domínio: O LLM gera um domínio PDDL baseado no 3DSG e no objetivo inicial.
Refinamento Iterativo: Um planejador simbólico tenta gerar um plano. Se falhar, um validador simbólico (VAL) fornece feedback em linguagem natural sobre erros de sintaxe ou lógica. O LLM usa esse feedback para corrigir o domínio (loop de refinamento).
Verificação de Grounding: Se um plano é encontrado, ele é verificado virtualmente no 3DSG para garantir que todos os objetos e locais referenciados existem de verdade (evitando alucinações).
Deslocamento e Relaxação de Objetivo: Se o plano não for executável após o refinamento, o sistema ativa o deslocamento de objetivo (propondo objetos alternativos no cenário) e, se necessário, relaxa o objetivo (reduzindo restrições).
Busca no Grafo de Relaxação: O sistema navega em um grafo onde os eixos representam deslocamentos de domínio (horizontal) e relaxamentos de objetivo (vertical), buscando a primeira instância solúvel que preserve a intenção do usuário.

3. Principais Contribuições

Formalismo de Relaxação Contextual: Uma nova formalização que raciocina simultaneamente sobre equivalência funcional e viabilidade física para preservar a intenção do usuário enquanto gera objetivos executáveis.
Framework ContextMatters: Uma arquitetura que acopla o raciocínio de senso comum de LLMs (para proposição de objetivos e refinamento de domínio) com a validação rigorosa de planejadores clássicos (PDDL).
Novo Dataset: Criação de um conjunto de dados com 141 tarefas propensas a relaxação, compatíveis com ambientes 3D populares e 3DSGs, projetado especificamente para testar a capacidade de adaptação do sistema (incluindo tarefas onde objetos essenciais foram removidos).
Validação Empírica e Real: Avaliação em benchmarks de planejamento e demonstração bem-sucedida em um robô físico TIAGo em um cenário do mundo real.

4. Resultados Experimentais

Os experimentos foram conduzidos comparando o ContextMatters com baselines de última geração (LLMAsPlanner, SayPlan e DELTA) em 10 ambientes diferentes.

Taxa de Sucesso (Success Rate - SR): O ContextMatters com relaxação de objetivos alcançou uma taxa de sucesso de 91,73% (Grounding + Planning), representando uma melhoria de +52,45% em relação ao estado da arte (DELTA), que obteve apenas 39,28% nas mesmas condições.
Comparação de Abordagens:
- Sem relaxação, o desempenho cai para 66,94%, demonstrando a importância crítica da adaptação de objetivos.
- O DELTA, embora rápido, falha frequentemente na etapa de grounding (mapeamento para o mundo real) devido à falta de um loop de refinamento auto-supervisionado.
- Abordagens puramente baseadas em LLM (SayPlan, LLMAsPlanner) não conseguem garantir a viabilidade simbólica ou o grounding correto.
Desempenho por Tarefa: O sistema mostrou robustez em tarefas complexas como "Configuração de Escritório" e "Lavanderia", onde a modelagem de domínio e a adaptação são mais críticas.
Robô Real: A implementação no robô TIAGo validou a abordagem no mundo real. Em um cenário onde o usuário pediu "4 lanches para crianças" e apenas 3 estavam disponíveis, o sistema relaxou o objetivo para "3 lanches + 1 lata de refrigerante" (substituindo um item indisponível por um funcionalmente equivalente e seguro), executando o plano com sucesso.

5. Significado e Conclusão

O trabalho ContextMatters representa um avanço significativo para a autonomia de agentes corporificados em ambientes não estruturados.

Mudança de Paradigma: Em vez de falhar quando as precondições exatas não são atendidas, o sistema aprende a "negociar" com o ambiente, adaptando o objetivo de forma inteligente e semanticamente coerente.
Robustez: Ao integrar a flexibilidade semântica dos LLMs com a segurança e garantias do planejamento clássico, o framework preenche a lacuna entre a intenção do usuário e as limitações físicas do mundo real.
Aplicabilidade Prática: A demonstração em um robô físico confirma que essa abordagem não é apenas teórica, mas viável para aplicações reais onde as condições ideais raramente existem.

Em suma, o papel argumenta que a capacidade de relaxar e adaptar objetivos é um passo crucial para a criação de sistemas de IA corporificada verdadeiramente robustos e úteis.