Construct, Merge, Solve & Adapt with Reinforcement Learning for the min-max Multiple Traveling Salesman Problem

O artigo propõe o método híbrido RL-CMSA, que combina otimização exata e aprendizado por reforço para resolver o problema de roteamento múltiplo de vendedores (mTSP) no cenário min-max, demonstrando superioridade em encontrar soluções de alta qualidade em comparação com algoritmos genéticos de última geração.

Guillem Rodríguez-Corominas, Maria J. Blesa, Christian Blum

Publicado 2026-03-02
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande empresa de entregas. Você tem um depósito central e precisa enviar pacotes para dezenas (ou centenas) de clientes espalhados pela cidade. Você tem vários motoristas (os "vendedores" do problema) e um objetivo muito específico: ninguém pode ficar sobrecarregado.

O desafio não é apenas fazer o menor caminho total, mas garantir que o motorista que fizer o trajeto mais longo tenha a menor distância possível. Se um motorista fizer 100 km e os outros 10 km, o sistema está desequilibrado. O objetivo é que todos façam, digamos, 30 km cada um.

Esse é o problema que os autores do artigo resolveram. Eles criaram um novo "cérebro" de computador chamado RL-CMSA. Vamos entender como ele funciona usando uma analogia de uma cozinha de restaurante de alta performance.

O Problema: A Cozinha Caótica

Pense nas cidades como ingredientes e nos motoristas como chefs. Você precisa dividir os ingredientes entre os chefs para que nenhum deles tenha uma lista de tarefas gigantesca enquanto os outros ficam ociosos. Fazer isso manualmente é impossível quando há 200 ingredientes e 30 chefs. O computador precisa tentar milhões de combinações.

A Solução: O Método "Construir, Fundir, Resolver e Adaptar" (RL-CMSA)

Os autores criaram um algoritmo que funciona como um chefe de cozinha sábio que aprende com seus erros. O processo tem 6 passos, que podemos imaginar como uma dança:

1. Construir (O Rascunho Criativo)

O computador começa criando várias soluções "rascunho".

  • A Mágica do Aprendizado (Reinforcement Learning): Aqui entra o segredo. O computador tem um "diário de bordo" (chamado de valores Q). Ele aprende quais ingredientes (cidades) costumam ficar bons juntos na mesma panela (rota).
  • A Analogia: Imagine que o computador percebeu que "Cidade A" e "Cidade B" sempre ficam perto uma da outra em entregas eficientes. Então, na próxima vez que ele tentar montar uma rota, ele tende a colocar A e B juntas, como se estivesse seguindo uma receita testada e aprovada.

2. Fundir (A Colagem de Ideias)

O computador pega todas as rotas que criou no passo anterior e joga tudo numa grande "piscina de ideias".

  • Ele descarta as rotas ruins (aquelas que são muito longas ou repetitivas) e guarda apenas as melhores versões de cada trecho de rota. É como se ele dissesse: "Desses 100 pedaços de rota que fiz, vou guardar apenas os 20 melhores".

3. Resolver (O Mestre Matemático)

Agora, ele usa um "super-ajudante" matemático (um solver exato) para pegar esses melhores pedaços da piscina e tentar montar a melhor solução possível.

  • A Analogia: É como se você tivesse os melhores pedaços de quebra-cabeça e pedisse a um gênio da matemática para encaixá-los perfeitamente, garantindo que todos os clientes sejam atendidos e o trajeto mais longo seja o menor possível.

4. Melhorar (O Polimento)

Às vezes, a solução matemática deixa dois clientes no mesmo lugar ou deixa uma rota um pouco torta. O algoritmo faz pequenos ajustes:

  • Remover: Tira um cliente que está duplicado.
  • Mover (Shift): Pega um cliente de uma rota cheia e coloca em uma rota vazia.
  • Trocar (Swap): Troca dois clientes entre duas rotas para ver se fica mais equilibrado.
  • É como um chef provando o prato e ajustando o sal ou o tempero no final.

5. Aprender (O Ciclo de Feedback)

Aqui está a inteligência do sistema. O computador olha para a solução final que conseguiu.

  • Se dois clientes apareceram juntos na rota perfeita, o computador diz: "Isso funcionou! Vou aumentar a chance de juntá-los novamente no futuro".
  • Se dois clientes juntos causaram problemas, ele diz: "Evitemos isso na próxima vez".
  • Isso é o Aprendizado por Reforço: ele ganha "pontos" por acertos e "perde pontos" por erros, ajustando sua estratégia para a próxima tentativa.

6. Adaptar (A Limpeza)

O computador mantém a "piscina de ideias" fresca. As rotas antigas que não são mais usadas são descartadas (envelhecidas) para dar espaço a novas ideias. Isso impede que o sistema fique preso em soluções velhas e ruins.

O Resultado: Quem Ganhou?

Os autores testaram esse novo "chefe de cozinha" contra o melhor método que já existia (chamado HGA, que é como um time de cozinheiros experientes que tentam de tudo, mas sem o mesmo aprendizado contínuo).

  • Em cidades pequenas: Os dois competidores empataram ou foram muito parecidos.
  • Em cidades grandes e com muitos motoristas: O RL-CMSA venceu de lavada.
    • Ele encontrou soluções melhores (menos quilômetros rodados pelo motorista mais cansado).
    • Foi mais consistente (nunca falhou em encontrar uma boa solução).
    • Foi mais rápido na maioria dos casos.

Por que isso é importante?

Imagine que você precisa coordenar drones para entregar remédios em uma cidade grande, ou robôs em um armazém. Se um robô ficar sobrecarregado, o sistema todo atrasa.

O RL-CMSA é como um gerente que aprende com a experiência. Em vez de tentar adivinhar aleatoriamente, ele usa o que funcionou no passado para tomar decisões melhores no futuro. Ele equilibra a exploração (tentar coisas novas) com a exploração (usar o que já sabe que funciona), garantindo que o trabalho seja dividido de forma justa e eficiente entre todos os "trabalhadores".

Em resumo: Os autores criaram um sistema inteligente que aprende a dividir o trabalho de entrega para que ninguém fique sobrecarregado, usando uma mistura de criatividade, matemática pura e aprendizado contínuo, superando os métodos antigos, especialmente em cenários complexos e grandes.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →