One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um único robô a fazer de tudo: jogar xadrez, cozinhar, dirigir um carro e resolver um quebra-cabeça de texto. O problema é que, se você tentar ensinar tudo ao mesmo tempo usando o mesmo "cérebro" padrão, o robô acaba ficando confuso. As regras do xadrez atrapalham as do cozimento, e ele acaba não aprendendo nada direito. Isso é o que os cientistas chamam de conflito de gradientes e colapso da plasticidade.

Este artigo, apresentado na conferência ICLR 2026, apresenta uma solução brilhante chamada ScaleZero. Vamos entender como ele funciona usando analogias do dia a dia.

1. O Problema: O "Cérebro" Quebrado

Antes do ScaleZero, existiam modelos que tentavam fazer tudo de uma vez só (como o UniZero). Imagine que esse modelo é um único funcionário tentando atender 26 clientes diferentes ao mesmo tempo, cada um pedindo algo totalmente diferente.

O cliente A quer algo rápido e simples (como jogar Pong).
O cliente B quer algo complexo e difícil (como jogar Seaquest).

O funcionário tenta atender a todos, mas acaba focando no cliente A porque é mais fácil. O cliente B fica esperando, e o funcionário começa a cometer erros, esquecendo o que aprendeu antes. O "cérebro" do robô fica travado, com neurônios "dormindo" e sem capacidade de aprender coisas novas. É como tentar usar uma única chave para abrir 26 portas diferentes: nenhuma abre direito.

2. A Solução de Arquitetura: O "Escritório de Especialistas" (MoE)

Para resolver isso, os autores criaram o ScaleZero. Em vez de ter um único funcionário, eles montaram um escritório cheio de especialistas.

A Analogia do MoE (Mistura de Especialistas): Imagine que o robô não é uma pessoa, mas sim uma grande sala de reuniões. Dentro dessa sala, existem vários consultores especialistas (os "Experts").
- Quando chega um pedido de Pong, o "gerente" (o roteador) chama apenas o especialista em jogos rápidos.
- Quando chega um pedido de Seaquest, ele chama o especialista em exploração complexa.
- Cada especialista trabalha em sua própria mesa, sem interferir no trabalho do outro.

Isso evita que as tarefas se misturem e confundam o robô. O ScaleZero usa essa estrutura de "Mistura de Especialistas" (MoE) para garantir que, mesmo aprendendo tudo ao mesmo tempo, cada tarefa tenha seu próprio espaço para crescer. É como ter uma equipe de médicos: um cardiologista não tenta tratar uma fratura de perna; ele deixa isso para o ortopedista.

3. A Solução de Processo: O "Orçamento Dinâmico" (DPS)

Agora, imagine que você tem um orçamento limitado de tempo e dinheiro para treinar esse robô. Tradicionalmente, você gastaria o mesmo tempo treinando o robô para tarefas fáceis (que ele já domina) e para tarefas difíceis (que ele ainda não entende). Isso é um desperdício!

Para resolver isso, eles criaram o DPS (Escalonamento Dinâmico de Parâmetros).

A Analogia do Orçamento Inteligente: Pense no DPS como um gerente de projeto muito esperto.
- Fase 1: Ele treina o robô em tudo um pouco para criar uma base sólida.
- Fase 2: Assim que o robô domina uma tarefa fácil (como Pong), o gerente diz: "Parou! Não gaste mais tempo nisso. Vamos focar no que ainda está difícil."
- Expansão: Quando o robô encontra uma tarefa muito difícil, o gerente "contrata" um novo especialista temporário (usando uma técnica chamada LoRA, que é como adicionar um "anexo" leve ao cérebro do robô) para ajudar naquela tarefa específica, sem precisar reconstruir todo o cérebro.

Isso permite que o robô aprenda de forma mais eficiente, gastando cerca de 28% menos tempo e dados do que os métodos antigos, mas chegando ao mesmo resultado.

4. Os Resultados: O "Polímata" Perfeito

O teste foi feito em três mundos muito diferentes:

Jogos de Arcade (Atari): Jogos visuais rápidos e complexos.
Controle Robótico (DMC): Tarefas físicas contínuas, como fazer um robô andar ou correr.
Jogos de Texto (Jericho): Aventuras baseadas em leitura e lógica.

O ScaleZero conseguiu ser um "generalista" incrível. Ele aprendeu a jogar todos os jogos e controlar todos os robôs usando apenas um único modelo, sem precisar de um robô diferente para cada tarefa. E o melhor: ele fez isso com a mesma eficiência de especialistas que só sabiam fazer uma coisa, mas usando muito menos recursos.

Resumo em uma Frase

O ScaleZero é como transformar um único funcionário sobrecarregado em uma equipe organizada de especialistas, onde cada um cuida do que sabe fazer de melhor, e um gerente inteligente decide exatamente quando e onde alocar recursos para que ninguém perca tempo com o que já foi resolvido.

Isso é um passo gigante para criar Agentes Gerais de IA — robôs que podem realmente aprender qualquer coisa, do mesmo jeito que um humano aprende, sem se confundir no processo.

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

1. O Problema: O "Cérebro" Quebrado

2. A Solução de Arquitetura: O "Escritório de Especialistas" (MoE)

3. A Solução de Processo: O "Orçamento Dinâmico" (DPS)

4. Os Resultados: O "Polímata" Perfeito

Resumo em uma Frase

Título: Um Modelo para Todas as Tarefas: Aproveitando Modelos de Mundo Eficientes no Planejamento Multitarefa

1. O Problema

2. Metodologia

A. Arquitetura: ScaleZero

B. Estratégia de Treinamento: Dynamic Parameter Scaling (DPS)

3. Principais Contribuições

4. Resultados

5. Significância

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

1. O Problema: O "Cérebro" Quebrado

2. A Solução de Arquitetura: O "Escritório de Especialistas" (MoE)

3. A Solução de Processo: O "Orçamento Dinâmico" (DPS)

4. Os Resultados: O "Polímata" Perfeito

Resumo em uma Frase

Título: Um Modelo para Todas as Tarefas: Aproveitando Modelos de Mundo Eficientes no Planejamento Multitarefa

1. O Problema

2. Metodologia

A. Arquitetura: ScaleZero

B. Estratégia de Treinamento: Dynamic Parameter Scaling (DPS)

3. Principais Contribuições

4. Resultados

5. Significância

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions