Intention-Conditioned Flow Occupancy Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um robô a fazer várias tarefas diferentes: abrir uma gaveta, pegar uma xícara, ou andar por um labirinto. Tradicionalmente, para cada tarefa nova, teríamos que treinar o robô do zero, gastando muito tempo e dados. É como se, para aprender a andar de bicicleta, você tivesse que esquecer tudo o que sabe sobre caminhar e começar de novo.

Este artigo, apresentado na conferência ICLR 2026, propõe uma nova maneira de fazer isso, chamada InFOM (Modelos de Ocupação de Fluxo Condicionados à Intenção). Vamos usar uma analogia simples para entender como funciona.

A Grande Ideia: O "Mestre de Cerimônias" vs. O "Aprendiz"

Imagine que você tem uma biblioteca gigante de vídeos de pessoas fazendo coisas aleatórias (o "dataset não rotulado"). Algumas estão cozinhando, outras estão jogando bola, outras estão pintando. Ninguém sabe exatamente o que cada pessoa está tentando fazer no momento, apenas vemos os movimentos.

O Problema Antigo: Os robôs antigos tentavam apenas imitar os movimentos. Eles viam uma mão se movendo e tentavam copiar. Mas eles não entendiam por que a mão se movia. Se a tarefa mudasse um pouco, eles se perdiam.
A Solução InFOM: O InFOM tenta descobrir a "Intenção" escondida por trás dos movimentos. É como se o robô tivesse um "Mestre de Cerimônias" (o modelo) que observa os vídeos e diz: "Ah, essa pessoa está tentando pegar o copo azul" ou "Essa outra está tentando abrir a porta".

Como Funciona a Mágica? (A Analogia da Previsão do Tempo)

O InFOM usa uma técnica chamada "Flow Matching" (Fluxo de Correspondência). Pense nisso como um sistema de previsão do tempo muito avançado.

O Cenário: Você está em um ponto A (estado atual) e quer saber para onde vai o robô no futuro distante (estado futuro).
A Diferença: Em vez de prever apenas o tempo de amanhã, o InFOM prevê o clima de daqui a 10 dias, considerando que a intenção da pessoa mudou.
A Intenção (O Segredo): O modelo aprende que, se a intenção for "fazer um bolo", o futuro provável é "assar o bolo". Se a intenção for "jogar futebol", o futuro é "chutar a bola". O modelo cria um "mapa de probabilidades" de todos os lugares que o robô pode visitar, dependendo da intenção.

O Passo a Passo (Pré-treinamento e Ajuste Fino)

O processo tem duas fases principais:

1. Fase de Estudo (Pré-treinamento):
O robô assiste a milhares de horas de vídeos de pessoas fazendo coisas diferentes, sem receber notas ou recompensas.

Ele tenta adivinhar a intenção de cada pessoa (ex: "ela quer pegar o objeto vermelho").
Ele aprende a prever o futuro: "Se eu tiver essa intenção, daqui a 10 segundos estarei segurando o objeto".
Ele cria um "cérebro" que entende a lógica de longo prazo, não apenas o movimento imediato.

2. Fase de Prática (Ajuste Fino):
Agora, você dá ao robô uma tarefa específica com uma recompensa (ex: "pegue a xícara e ganhe 10 pontos").

O robô não precisa aprender do zero. Ele olha para o seu "cérebro" treinado e diz: "Ok, para ganhar esses pontos, qual intenção eu devo seguir?"
Ele escolhe a melhor intenção aprendida anteriormente e ajusta sua ação para atingir o objetivo. É como um aluno que já estudou a teoria e agora só precisa resolver o problema específico do exame.

Por que isso é incrível? (Os Resultados)

Os autores testaram isso em 40 tarefas diferentes (desde robôs que andam até braços mecânicos que pegam objetos).

Melhoria Massiva: O InFOM foi 1,8 vezes melhor em obter pontos do que os métodos anteriores.
Sucesso: A taxa de sucesso aumentou em 36%.
O "Pulo do Gato": Em tarefas difíceis onde a recompensa é rara (como encontrar uma agulha no palheiro), o InFOM brilhou porque conseguia explorar diferentes "intenções" para encontrar o caminho, enquanto os outros robôs ficavam presos.

Resumo em uma Frase

O InFOM é como ensinar um robô a não apenas imitar movimentos, mas a entender o "porquê" por trás deles, criando um mapa mental de todas as possibilidades futuras baseadas nas intenções humanas, o que permite que ele aprenda novas tarefas muito mais rápido e com muito mais eficiência.

É a diferença entre um ator que apenas decora o roteiro e um ator que entende a psicologia do personagem: o segundo consegue improvisar e se adaptar a qualquer nova cena que surja.

Each language version is independently generated for its own context, not a direct translation.

Título: Intention-Conditioned Flow Occupancy Models (InFOM)

1. O Problema

O aprendizado por reforço (RL) enfrenta desafios fundamentais ao tentar escalar para grandes conjuntos de dados, semelhantes aos modelos de fundação (foundation models) em NLP e visão computacional. Dois obstáculos principais impedem a criação de modelos de fundação eficazes para RL:

Dependências de Longo Prazo: As ações em RL têm consequências que se estendem por longos horizontes temporais. Modelos que apenas preveem a próxima ação ou estado imediato falham em capturar a estrutura temporal de longo prazo necessária para o raciocínio estratégico.
Intenção e Heterogeneidade: Grandes conjuntos de dados offline são frequentemente coletados por múltiplos usuários ou agentes executando tarefas distintas. A maioria dos métodos atuais ignora a "intenção" subjacente (o objetivo ou tarefa específica) que motivou a coleta dos dados, tratando o conjunto como uma distribuição única e homogênea. Isso limita a capacidade de adaptação a novas tarefas específicas.

O objetivo é desenvolver um método de pré-treinamento que aprenda uma representação unificada de tempo (ocupação futura) e intenção (variável latente) a partir de dados não rotulados (sem recompensa), permitindo uma adaptação eficiente (fine-tuning) para tarefas específicas.

2. Metodologia: InFOM

O InFOM é um modelo probabilístico que combina Modelos de Fluxo (Flow Matching) com Inferência Variacional de Intenção. O método opera em duas fases: pré-treinamento e ajuste fino (fine-tuning).

A. Pré-treinamento (Aprendizado de Ocupação e Intenção)

O objetivo é aprender um modelo gerativo que preveja estados futuros distantes ( $s_f$ ) condicionados ao estado atual ( $s$ ), ação ( $a$ ) e uma intenção latente ( $z$ ).

Inferência Variacional de Intenção:
- O modelo assume que transições consecutivas $(s, a, s', a')$ compartilham a mesma intenção latente $z$ .
- Um codificador variacional $p_\phi(z | s', a')$ infere a intenção $z$ a partir da transição subsequente.
- O modelo maximiza uma Evidence Lower Bound (ELBO), que equilibra a capacidade de prever o estado futuro com a regularização da distribuição da intenção (KL-divergência em relação a um prior Gaussiano). Isso atua como um "gargalo de informação", forçando o modelo a extrair apenas as informações relevantes para a intenção.
Modelos de Ocupação com Fluxo (Flow Occupancy Models):
- Em vez de prever a distribuição de probabilidade diretamente, o InFOM utiliza Flow Matching (uma técnica de IA generativa baseada em Equações Diferenciais Ordinárias - ODEs) para modelar a medida de ocupação de estado descontada ( $p_\gamma(s_f | s, a, z)$ ).
- A medida de ocupação representa a frequência com que um agente visita estados futuros sob uma política.
- O modelo utiliza uma variante do Temporal Difference (TD) Flow, especificamente a versão SARSA, que incorpora a equação de Bellman no processo de treinamento do fluxo. Isso permite que o modelo "costure" segmentos de trajetória e generalize combinatorialmente, aprendendo a dinâmica de longo prazo de forma estável e eficiente em termos de amostras.

B. Ajuste Fino (Fine-tuning e Extração de Política)

Após o pré-treinamento, o modelo é adaptado para uma tarefa específica usando um conjunto de dados rotulado por recompensas.

Estimativa de Valor Generativa:
- Para uma tarefa com recompensa $r$ , o método amostra estados futuros a partir do modelo de ocupação pré-treinado (condicionado a intenções amostradas do prior $p(z)$ ).
- A função Q é estimada como a média das recompensas desses estados futuros: $Q_z(s, a) \approx \mathbb{E}[r(s_f)]$ .
Melhoria Implícita de Política Generalizada (Implicit GPI):
- A melhoria de política generalizada (GPI) clássica tenta maximizar a função Q sobre um conjunto finito de intenções. No InFOM, como o espaço de intenções é contínuo e infinito, maximizar diretamente é instável e computacionalmente caro (requer backpropagation através do solver de ODE).
- Solução Proposta: O InFOM utiliza uma distilação de Expectile. Em vez de maximizar explicitamente sobre todas as intenções, ele treina uma única função Q escalar que aprende a aproximar o valor máximo esperado sobre o espaço de intenções, utilizando uma perda de expectile (uma generalização suave do máximo).
- Isso permite extrair uma política robusta sem precisar diferenciar através do solver de ODE, mantendo a estabilidade.

3. Contribuições Principais

Modelo Unificado de Tempo e Intenção: O InFOM é o primeiro framework a integrar explicitamente a inferência de intenções latentes com modelos de ocupação de estado baseados em fluxo, permitindo prever o futuro distante condicionado a "quem" está agindo e "por que".
Fluxos de Ocupação com TD (SARSA Flows): Adaptação bem-sucedida de técnicas de Flow Matching para RL, incorporando a recursividade de Bellman (TD) para garantir consistência temporal e eficiência de amostragem.
Melhoria de Política Generalizada Implícita: Proposta de uma nova estratégia de extração de política baseada em expectile que evita a instabilidade da maximização direta sobre um espaço contínuo de intenções, eliminando a necessidade de backpropagation através de ODEs durante o ajuste fino.
Desempenho Superior: Demonstração empírica de que modelar intenções e medidas de ocupação simultaneamente supera abordagens de pré-treinamento anteriores (como behavioral cloning, modelos de mundo e representações contrastivas).

4. Resultados Experimentais

Os autores avaliaram o InFOM em 36 tarefas baseadas em estado e 4 tarefas baseadas em imagem (domínios ExORL e OGBench), comparando com 8 métodos de base (baselines) de ponta.

Desempenho Geral: O InFOM alcançou uma melhoria mediana de 1.8x nos retornos (returns) e um aumento de 36% nas taxas de sucesso em comparação com os melhores métodos existentes.
Tarefas Desafiadoras:
- No domínio Jaco (braço robótico com espaço de estado de alta dimensão e recompensas esparsas), o InFOM obteve uma melhoria de 20x sobre as baselines, que quase não progrediram.
- Em tarefas de manipulação complexas (OGBench), o método superou as baselines em 36% de taxa de sucesso.
- Em tarefas visuais (baseadas em pixels), o InFOM superou a melhor baseline em 31%.
Análise de Intenções: Visualizações (t-SNE) mostraram que o codificador de intenção do InFOM consegue agrupar comportamentos distintos (ex: "pegar" vs. "colocar") de forma mais clara do que métodos anteriores baseados em representações de Hilbert ou Forward-Backward.
Eficiência: O método demonstrou convergência mais rápida durante o ajuste fino, indicando que a representação pré-treinada captura informações temporais e de intenção mais úteis.

5. Significado e Impacto

O InFOM representa um avanço significativo na direção de Modelos de Fundação para RL. Ao tratar a "intenção" como uma variável latente inferível e utilizar a expressividade dos modelos de fluxo para capturar a dinâmica de longo prazo, o método resolve limitações críticas de métodos anteriores que ignoram a heterogeneidade dos dados ou falham em raciocinar sobre horizontes longos.

A abordagem sugere que, para escalar o RL offline, é crucial não apenas prever transições, mas entender a estrutura latente das intenções dos agentes que geraram os dados. Isso permite que um único modelo pré-treinado seja adaptado rapidamente para diversas tarefas novas, mesmo com dados de ajuste fino limitados ou recompensas esparsas, aproximando a comunidade de sistemas de robótica e controle mais generalistas e eficientes.