WildOS: Open-Vocabulary Object Search in the Wild

O artigo apresenta o WildOS, um sistema unificado que combina exploração geométrica segura com raciocínio visual semântico baseado em modelos de fundação e localização por filtro de partículas para permitir que robôs naveguem de forma robusta e eficiente em busca de objetos com vocabulário aberto em ambientes externos complexos e não estruturados.

Hardik Shah, Erica Tevere, Deegan Atha, Marcel Kaufmann, Shehryar Khattak, Manthan Patel, Marco Hutter, Jonas Frey, Patrick Spieler

Publicado 2026-02-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está soltando um cachorro inteligente em uma floresta enorme e desconhecida, e você diz a ele: "Encontre a casinha vermelha". O problema é que o cachorro só consegue ver com clareza os primeiros 10 metros à sua frente. Além disso, ele não tem um mapa, e a floresta é cheia de arbustos, cercas e caminhos que podem ser armadilhas.

O WildOS é o "cérebro" de um robô (neste caso, um robô quadrúpede parecido com o Spot da Boston Dynamics) projetado para resolver exatamente esse problema. Ele permite que o robô navegue por longas distâncias em ambientes selvagens e desestruturados para encontrar objetos descritos em linguagem natural (como "encontre o tanque de água" ou "vá até o carro de golfe").

Aqui está como o WildOS funciona, usando analogias simples:

1. O Dilema: "O que vejo agora" vs. "O que sei que existe"

A maioria dos robôs hoje funciona como alguém com uma lanterna fraca em uma sala escura. Eles só sabem onde andar com segurança se a luz da lanterna (o sensor de distância/LiDAR) iluminar o chão. Se há uma cerca a 20 metros de distância, o robô só percebe quando bate nela. Isso faz com que ele ande de forma "miopia", indo direto para o obstáculo e depois dando a volta, o que é lento e ineficiente.

Outros robôs tentam usar apenas a "visão" (câmeras), como se olhassem para o horizonte. Eles conseguem ver a cerca de longe, mas muitas vezes esquecem onde já foram, voltando a andar em círculos ou caindo em becos sem saída porque não têm memória do que já exploraram.

2. A Solução: O "Cérebro" Híbrido do WildOS

O WildOS combina o melhor dos dois mundos: a memória de longo prazo e a intuição visual. Ele é dividido em três partes principais:

A. O Mapa Mental (O Gráfico de Navegação)

Em vez de tentar desenhar cada pedra e folha do chão (o que ocuparia muita memória), o WildOS cria um mapa mental simplificado, como um diagrama de conexões de metrô.

  • Como funciona: Ele guarda apenas os "nós" (lugares onde o robô já esteve) e as "linhas" (caminhos seguros entre eles).
  • A analogia: Imagine que você está explorando uma cidade nova. Você não desenha cada tijolo da calçada. Você apenas anota: "Estou na praça", "Há uma rua à esquerda que leva ao parque" e "A rua da direita está bloqueada". Isso é leve, rápido e permite que o robô lembre de onde já foi para não voltar a entrar em becos sem saída.

B. O "Olho Mágico" (ExploRFM)

Aqui entra a parte mais inovadora. O robô usa uma Inteligência Artificial baseada em modelos fundamentais (uma IA treinada em milhões de imagens da internet) chamada ExploRFM.

  • O que ele faz: Enquanto o sensor de distância vê apenas o que está perto, a IA olha para a câmera e "adivinha" o que está longe. Ela responde a três perguntas em tempo real:
    1. É seguro andar por ali? (Ex: "Aquilo parece grama, é seguro. Aquilo parece água ou arbusto denso, é perigoso").
    2. Onde está o caminho? (Ex: "Vejo uma abertura entre duas árvores que parece um caminho").
    3. Onde está o objetivo? (Ex: "Aquela forma lá no horizonte parece um carro de golfe").
  • A analogia: É como se o robô tivesse um "olho de águia" que consegue ver o que está além da neblina, identificando não apenas obstáculos, mas também caminhos promissores e objetos de interesse muito antes de chegar perto deles.

C. O Triângulo da Localização (Triangulação)

Como o robô vê o objeto de longe, mas não consegue medir a distância exata com o sensor, ele usa um truque matemático.

  • Como funciona: O robô anda um pouco, olha para o objeto de um ângulo, depois anda mais e olha de outro ângulo. Ele usa essas diferentes visões para "triangular" onde o objeto provavelmente está, como um caçador que estima a distância de uma presa observando-a de dois pontos diferentes.
  • O resultado: Mesmo que o objeto esteja a 100 metros de distância (fora do alcance do sensor), o robô cria uma "bola de energia" no mapa mental indicando: "O alvo deve estar aqui".

3. A Dança da Decisão: Juntando Tudo

Agora, o robô precisa decidir para onde ir. Ele faz uma "fusão" de informações:

  1. Ele olha para seu Mapa Mental para ver quais caminhos já conhece e quais são seguros perto dele.
  2. Ele olha para o Olho Mágico para ver quais caminhos longe parecem interessantes e seguros.
  3. Ele projeta os caminhos do mapa mental na imagem da câmera e dá uma "nota" para cada um.
    • Exemplo: "O caminho da esquerda leva direto para o objetivo, mas a IA diz que tem um muro invisível lá. Nota: Baixa."
    • Exemplo: "O caminho da direita vai um pouco para trás, mas a IA vê uma abertura entre árvores que leva ao objetivo. Nota: Alta."

O robô escolhe o caminho com a melhor nota, garantindo que ele não bata em obstáculos invisíveis e não ande em círculos.

Por que isso é importante?

Antes do WildOS, os robôs de busca e resgate ou inspeção ambiental precisavam de mapas pré-existentes ou de humanos guiando-os. Com o WildOS, o robô pode ser solto em uma floresta, receber uma ordem como "Encontre o abrigo de emergência" e:

  • Entender o idioma: Sabe o que é um "abrigo".
  • Ver longe: Identifica o abrigo a centenas de metros de distância.
  • Planejar com inteligência: Escolhe o caminho que contorna obstáculos longínquos, em vez de ir direto para eles.
  • Lembrar: Se entrar em um beco sem saída, ele sabe voltar e tentar outro caminho, sem precisar que um humano diga "vire para trás".

Em resumo, o WildOS transforma um robô que apenas "sente o chão" em um explorador que vê, entende e planeja como um humano faria, usando a combinação de memória espacial e inteligência visual avançada.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →