"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô de limpeza muito inteligente, capaz de entender o que você diz. O problema é que, às vezes, quando você dá uma ordem complexa como "não chegue perto da lareira porque está muito quente" ou "se tiver um animal na cozinha, não entre lá", o robô pode interpretar mal a ordem. Ele pode "alucinar", inventando um caminho que parece lógico para ele, mas que na verdade o levaria direto para o fogo ou para o animal.

É aqui que entra o STPR, o método apresentado neste artigo. Pense nele como um tradutor de "proibições" para "regras de trânsito".

Aqui está como funciona, passo a passo, usando analogias do dia a dia:

1. O Problema: O Robô que "Alucina"

Atualmente, se você pede para um robô seguir uma regra complexa, ele tenta "pensar" a resposta inteira sozinho. É como pedir para uma criança de 5 anos desenhar um mapa de fuga de um incêndio apenas ouvindo sua descrição. Ela pode tentar, mas pode esquecer de desenhar a porta ou traçar um caminho que atravessa a parede. O robô, ao tentar planejar tudo sozinho com linguagem, comete erros perigosos.

2. A Solução: O "Advogado de Código"

O STPR muda a estratégia. Em vez de pedir ao robô para pensar no caminho, ele pede para ele escrever as regras do caminho.

O Tradutor (LLM): Você diz ao robô: "Não chegue perto da lareira". O STPR usa uma Inteligência Artificial (o LLM) não para desenhar o caminho, mas para escrever um pequeno programa de computador (um código Python).
A Analogia: Imagine que você não está pedindo ao seu motorista para adivinhar onde estão os buracos na estrada. Você está pedindo para ele escrever uma lista de regras: "Se a coordenada X for maior que Y, pare". O motor de IA escreve essa regra matematicamente perfeita.

3. O "Círculo de Proibição" (Nuvem de Pontos)

Agora, o robô tem essa regra escrita em código. O STPR pega essa regra e a transforma em uma nuvem de pontos invisíveis no ar, como se fossem "fantasmas" ou "espinhos" espalhados pelo chão.

A Analogia: É como se o robô espalhasse milhares de pequenos cones de trânsito imaginários ao redor da lareira. Se o robô tentar passar por onde há um cone, ele sabe que vai bater.
O robô não precisa "entender" o conceito de "calor" ou "perigo". Ele apenas segue uma regra simples: "Não toque nos cones".

4. O Navegador Clássico (O Motorista Experiente)

Com esses "cones invisíveis" espalhados pelo mapa, o robô usa um algoritmo de navegação antigo e muito confiável (como o A* ou RRT*).

A Analogia: Pense nesse algoritmo como um GPS de caminhão muito experiente e conservador. Ele não tem imaginação, não alucina e não inventa atalhos. Ele apenas calcula o caminho mais curto que não toca em nenhum cone.
Como as regras (os cones) foram geradas por um especialista (o código da IA) e o caminho é calculado por um matemático rigoroso (o algoritmo), o resultado é 100% seguro.

Por que isso é genial?

Separação de Tarefas: A IA faz o que ela faz de melhor (entender linguagem e escrever código), e o algoritmo matemático faz o que ele faz de melhor (encontrar caminhos seguros). Eles não tentam fazer a tarefa um do outro.
Segurança Total: O robô nunca vai entrar na cozinha se houver um animal, porque o código escreveu uma regra que bloqueou a porta. Não há "achismos".
Funciona até em Robôs Pequenos: O artigo mostra que você não precisa de um supercomputador. Até modelos de IA menores e mais baratos conseguem escrever essas regras de código corretamente.

Resumo da Ópera

O STPR é como ter um engenheiro de segurança (a IA) que transforma suas ordens em linguagem natural ("não queime o robô") em leis físicas (código que cria barreiras invisíveis), e um piloto automático (o algoritmo) que apenas segue essas leis para chegar ao destino sem bater em nada.

Isso permite que robôs entendam regras complexas do mundo real, como "evite o calor" ou "cuidado com animais", sem precisar de sensores caros ou de "pensar" de forma arriscada. É a união perfeita entre a criatividade da linguagem e a precisão da matemática.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A navegação robótica no mundo real exige não apenas a chegada a um objetivo, mas também a adesão a restrições complexas especificadas por operadores humanos. Essas restrições são frequentemente:

Informais e vagas: Expressas em linguagem natural (ex: "não se aproxime da lareira", "evite a cozinha se houver um animal").
Difíceis de traduzir: Capturam informações semânticas e contextuais que não são facilmente extraídas apenas de dados de sensores (ex: um robô de limpeza sem sensores de temperatura precisa evitar uma lareira quente baseada apenas em uma instrução verbal).
Limitações das abordagens atuais:
- Planejamento puramente baseado em LLM: Tendência a alucinações (gerar planos plausíveis mas fisicamente impossíveis), falta de interpretabilidade e falha em garantir a conformidade estrita com restrições condicionais.
- Algoritmos de busca tradicionais (A, RRT):** Eficientes e com garantias teóricas, mas incapazes de interpretar linguagem natural ou restrições não padronizadas.

O desafio central é traduzir instruções de "o que não fazer" em linguagem natural para restrições formais e executáveis que um algoritmo de planejamento possa utilizar com garantias de segurança.

2. Metodologia: STPR (Safe Trajectory Planning with Restrictions)

O autores propõem o STPR, um framework neuro-simbólico que combina a compreensão de linguagem natural de Grandes Modelos de Linguagem (LLMs) com a robustez de algoritmos de busca clássicos. Em vez de pedir ao LLM para gerar o plano de navegação diretamente, o STPR usa o LLM para gerar funções de restrição executáveis.

O processo funciona em três etapas principais:

A. Geração de Código de Restrição (Prompting)

Um template de prompt engenhoso é usado para instruir o LLM a gerar uma função Python autocontida. O prompt inclui:

Instrução de Sistema: Define o papel do assistente (ex: "Você é um robô").
Bloco de Ambiente: Representação textual do ambiente (coordenadas de objetos, etc.).
Bloco de Restrição: A instrução natural do usuário e parâmetros numéricos relevantes.
Assinatura Python: Uma assinatura de função fixa (def is_in_constraints_OBJ(x, y, z) -> bool) para garantir que a saída seja código executável e não texto livre.

O LLM traduz a restrição (ex: "evite o calor da lareira") em uma função booleana que retorna True se um ponto $(x, y, z)$ estiver em uma região proibida.

B. Amostragem de Nuvem de Pontos (Point-Cloud Sampling)

As funções geradas pelo LLM são integradas à representação do ambiente:

O sistema utiliza amostragem por rejeição para gerar uma nuvem de pontos que representa as zonas proibidas.
Para restrições complexas (como campos de visão ou zonas de calor), o LLM também pode gerar uma "caixa delimitadora" (bounding box) aproximada para otimizar a amostragem, evitando a ineficiência de amostrar todo o espaço 3D.
Os pontos proibidos são armazenados em uma estrutura KD-tree para consultas rápidas de vizinho mais próximo.

C. Planejamento de Trajetória Restrita

Um algoritmo de busca tradicional (como A* ou RRT*) opera sobre o espaço de estados refinado:

Durante a expansão dos nós da busca, cada estado candidato é verificado contra a nuvem de pontos de restrição.
Se um ponto estiver dentro do raio de colisão de um ponto proibido na KD-tree, o estado é podado (considerado colisão).
Isso garante que o caminho final seja matematicamente livre de colisões com as restrições definidas pelo LLM.

3. Principais Contribuições

Separação de Responsabilidades: O LLM é usado apenas para a tradução de restrições (conversão de linguagem natural para código), enquanto a tomada de decisão (planejamento) é deixada para algoritmos com garantias teóricas de completude e otimalidade.
Interpretabilidade e Auditabilidade: Como as restrições são funções Python explícitas, especialistas de domínio podem auditar, modificar ou depurar as regras sem precisar re-treinar o modelo.
Compatibilidade com Modelos Menores: O método funciona eficazmente com modelos de código menores e mais baratos (ex: Granite-34B-Code), reduzindo custos de inferência e latência.
Integração com SLAM Visual: O uso de nuvens de pontos permite a integração direta com pipelines de SLAM visual existentes (ex: ROS SLAM Toolbox).

4. Resultados Experimentais

O STPR foi avaliado em um ambiente simulado Gazebo (ROS) com quatro cenários desafiadores:

S1: Evitar o campo de visão de uma câmera de segurança (restrição geométrica complexa).
S2: Evitar uma armadilha invisível (fossa) no chão.
S3: Evitar a cozinha se houver um animal (regra condicional).
S4: Manter distância segura de uma lareira (modelo físico de radiação de calor).

Desempenho Comparativo:

Conformidade: O STPR alcançou 100% de conformidade em todos os cenários. Em contraste, planejadores tradicionais (A*/RRT* sem STPR) falharam em 100% dos casos (ignoram restrições), e abordagens diretas de VLM (Visão-Linguagem) como GPT-4o tiveram taxas de sucesso de 0% a 10%, frequentemente alucinando caminhos através de paredes ou violando regras.
Qualidade do Caminho: O STPR garantiu caminhos ótimos (A*) ou assintoticamente ótimos (RRT*), enquanto os caminhos gerados por VLMs eram inconsistentes, às vezes muito longos ou fisicamente inválidos.
Tempo de Execução: O STPR manteve latências totais entre 12 e 18 segundos (incluindo geração de prompt e amostragem). Embora mais lento que o A* puro, é significativamente mais rápido e confiável que modelos de raciocínio avançados (como o1-pro) que levam minutos e ainda falham em garantir conformidade.
Modelos: Modelos menores de código (Granite-34B) performaram tão bem quanto modelos grandes (Llama-3.1-70B/405B) na geração de funções de restrição, desde que o prompt fosse adequado.

5. Significado e Conclusão

O trabalho demonstra que é possível integrar LLMs conversacionais em sistemas robóticos de forma segura e confiável, superando as limitações de alucinação e falta de garantias físicas. Ao transformar restrições de linguagem natural em código executável e utilizá-las para guiar algoritmos de busca clássicos, o STPR oferece um equilíbrio prático entre a flexibilidade da linguagem natural e a segurança rigorosa necessária para a robótica no mundo real. A abordagem é particularmente valiosa para cenários onde sensores físicos são insuficientes para detectar perigos contextuais ou semânticos.