Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa ensinar um robô a pilotar um carro de corrida ou a pousar uma nave lunar. Até hoje, a maneira mais comum de fazer isso era como se você estivesse treinando um gênio invisível: você deixava o robô tentar milhões de vezes, errando e acertando, até que ele aprendesse. O problema? Quando o robô finalmente aprendia, ele se tornava uma "caixa preta". Ninguém sabia como ele pensava, apenas que ele funcionava. Se ele cometesse um erro fatal, ninguém conseguia entender o porquê ou consertá-lo facilmente.

Este novo artigo, apresentado na conferência ICLR 2026, apresenta uma solução brilhante chamada MLES (Busca Evolutiva Assistida por Modelos de Linguagem Multimodais).

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A Caixa Preta vs. O Manual de Instruções

O jeito antigo (Aprendizado por Reforço Profundo): É como treinar um cachorro apenas com petiscos. O cachorro aprende a sentar porque ganha um biscoito, mas se você perguntar "por que você sentou?", ele não sabe explicar. Se o cachorro começar a latir para o vizinho em vez de sentar, você não sabe como corrigir a lógica dele, apenas tenta mais petiscos.
O jeito novo (MLES): Em vez de treinar um cérebro invisível, o MLES escreve um manual de instruções (um código de computador legível) para o robô. É como se, em vez de um cachorro, você tivesse um piloto humano que segue um roteiro escrito em português. Se o piloto errar, você lê o roteiro, vê onde está o erro e o corrige.

2. A Solução: O "Chef de Cozinha" e o "Mestre de Sabores"

O MLES funciona como uma cozinha de alta tecnologia com dois chefs principais trabalhando juntos:

O Chef Criativo (O Modelo de Linguagem - LLM): Imagine um chef genial que sabe cozinhar de tudo. Ele recebe uma receita básica e diz: "Vamos tentar algo novo!". Ele escreve o código (a receita) para o robô.
O Mestre de Sabores (O Analista Visual - MLLM): Aqui está a mágica. Quando o robô tenta a nova receita e falha (por exemplo, o carro bate na parede), o MLES não olha apenas para o placar (pontuação). Ele assiste ao vídeo do acidente.
- O "Mestre de Sabores" analisa o vídeo e diz ao Chef: "Olhe, o carro virou muito rápido na curva porque estava rápido demais. A receita diz para acelerar, mas o vídeo mostra que isso causou a batida."
- O Chef, agora com essa informação visual, reescreve a receita: "Ok, na próxima vez, se o carro estiver rápido, reduza a aceleração antes de virar."

3. O Processo: Evolução com "Olhos"

O sistema funciona em um ciclo contínuo, como a evolução das espécies, mas acelerada por inteligência artificial:

Nasce uma ideia: O Chef cria uma nova estratégia de pilotagem (código).
Teste: O robô tenta pilotar.
Análise Visual: Se der errado, o sistema grava o que aconteceu e mostra para o "Mestre de Sabores" (a IA multimodal).
Correção Direcionada: O Mestre analisa o vídeo, identifica o erro exato (ex: "freou tarde demais") e manda o Chef corrigir especificamente esse ponto na próxima receita.
Repetição: Isso acontece milhares de vezes. A cada rodada, as "receitas" (políticas) ficam mais inteligentes, mais seguras e mais parecidas com o que um humano faria.

4. Por que isso é revolucionário?

Transparência Total: Você pode ler o código final. Ele é escrito em linguagem de programação comum, com comentários explicando a lógica. É como ler um livro de instruções, não decifrar um código alienígena.
Segurança: Como podemos ver como o robô pensa, podemos garantir que ele não fará coisas perigosas. Se um carro autônomo for pilotado por esse sistema, os engenheiros podem ler o código e garantir que ele freará antes de um pedestre.
Eficiência: O sistema aprende mais rápido porque não está apenas chutando números. Ele está "vendo" os erros e corrigindo a lógica, assim como um professor humano faria com um aluno.

Resumo em uma frase

O MLES é como ter um tutor particular de IA que não apenas treina robôs, mas escreve o manual de instruções deles, assiste aos vídeos dos erros, explica o que deu errado e reescreve o manual até que o robô se torne um piloto perfeito, seguro e totalmente compreensível para os humanos.

Isso abre portas para usarmos robôs em lugares onde a segurança é crítica, como hospitais, estradas e indústrias, porque finalmente podemos confiar neles e entender o que eles estão fazendo.

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

1. O Problema: A Caixa Preta vs. O Manual de Instruções

2. A Solução: O "Chef de Cozinha" e o "Mestre de Sabores"

3. O Processo: Evolução com "Olhos"

4. Por que isso é revolucionário?

Resumo em uma frase

1. O Problema

2. Metodologia: MLES

Arquitetura e Componentes Principais

Inovação Chave: Análise Comportamental Guiada por Feedback Visual

Operadores Evolutivos

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

1. O Problema: A Caixa Preta vs. O Manual de Instruções

2. A Solução: O "Chef de Cozinha" e o "Mestre de Sabores"

3. O Processo: Evolução com "Olhos"

4. Por que isso é revolucionário?

Resumo em uma frase

1. O Problema

2. Metodologia: MLES

Arquitetura e Componentes Principais

Inovação Chave: Análise Comportamental Guiada por Feedback Visual

Operadores Evolutivos

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps