Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar a receita perfeita para um prato novo. O problema é que existem bilhões de combinações possíveis de ingredientes, e você não pode testar todas elas na vida real (seria muito caro e demorado). Você precisa de um assistente inteligente que possa "imaginar" essas receitas, aprender quais são boas e, eventualmente, gerar apenas as melhores.

É aí que entra o GFlowNet (Rede de Fluxo Gerativo). Pense nele como esse assistente. Ele tenta aprender a "receita" (a política) para gerar combinações de ingredientes (como moléculas, redes de dados ou sequências de DNA) que tenham um alto "sabor" (recompensa).

O Problema: Como ensinar o assistente sem errar muito?

Para treinar esse assistente, existem duas abordagens principais no mundo da inteligência artificial:

Abordagem Baseada em Valor (O "Contador de Dinheiro"):
Imagine que você tenta calcular exatamente quanto dinheiro cada caminho na sua cozinha vale. Você olha para cada passo e diz: "Se eu fizer isso, ganho X". O problema é que, em cozinhas gigantes (espaços combinatórios complexos), calcular o valor exato de cada passo é impossível. É como tentar contar cada grão de areia numa praia para saber o valor da praia.
Abordagem Baseada em Política (O "Chef que Aprende"):
Aqui, em vez de contar dinheiro, você treina o assistente diretamente a tomar decisões melhores. Ele tenta, erra, e um "professor" (chamado de Critic ou Avaliador) diz: "Ei, essa decisão foi ruim, tente outra".
O problema aqui: O professor precisa ser muito bom. Se ele for um professor medíocre, o aluno (o assistente) nunca vai aprender de verdade. A dificuldade é criar um professor que saiba avaliar o aluno com precisão, especialmente quando o aluno ainda está no meio do caminho (em "episódios parciais"), antes de terminar a receita.

A Solução do Artigo: O "Equilíbrio da Avaliação" (Sub-EB)

Os autores deste artigo (da Texas A&M University) descobriram uma maneira brilhante de conectar essas duas abordagens. Eles criaram uma nova regra de treinamento chamada Sub-EB (Equilíbrio de Avaliação de Sub-trajetória).

Vamos usar uma analogia para entender o que eles fizeram:

A Analogia do Rio e do Nível da Água

Imagine que o processo de gerar uma receita é como um rio fluindo por uma série de represas (estados).

O Fluxo (Flow): É a quantidade de água que passa por cada represa.
O Objetivo: Queremos que a água flua de forma que as represas finais (as receitas terminadas) tenham a quantidade de água proporcional à sua qualidade.

O que era difícil antes:
Na abordagem antiga de "professor" (política), o professor tentava adivinhar o valor de cada represa intermediária. Mas ele muitas vezes errava porque olhava apenas para pedaços pequenos do rio, sem ver o quadro geral.

A descoberta do Sub-EB:
Os autores perceberam que existe uma lei de conservação de água (equilíbrio). Se você olhar para qualquer pedaço do rio (uma sub-trajetória), a quantidade de água que entra deve ser igual à que sai, ajustada pela qualidade do destino.

Eles criaram uma nova regra: "O professor deve ser treinado para garantir que o 'nível de água' (a avaliação) em qualquer ponto do rio esteja perfeitamente equilibrado com o fluxo que passa por ele."

Em vez de tentar adivinhar o valor de um ponto isolado, o novo método (Sub-EB) olha para pedaços inteiros do caminho (sub-trajetórias) e ajusta o professor para que ele respeite esse equilíbrio natural.

Por que isso é revolucionário?

Estabilidade (Menos "Pula-pula"):
Antes, treinar o professor era como tentar equilibrar uma pilha de pratos em um barco agitado. O professor oscilava muito, e o aluno aprendia devagar ou de forma errada. Com o Sub-EB, o barco fica mais estável. O professor aprende de forma mais confiável, e o aluno (a política) melhora mais rápido e com mais segurança.
Flexibilidade (O Professor Pode Aprender):
Antigamente, o "mapa de retorno" (como voltar atrás no rio) era fixo e imutável. Com o Sub-EB, o professor pode aprender e se adaptar dinamicamente. É como se o professor pudesse mudar de estratégia conforme ele aprende mais sobre a cozinha, tornando o processo muito mais eficiente.
Uso de Dados Antigos (Offline):
O novo método permite usar dados de tentativas anteriores (mesmo que feitas por um assistente diferente) para treinar o novo professor. É como se você pudesse pegar cadernos de receitas de outros chefs e usar essas anotações para treinar seu próprio assistente, sem precisar cozinhar tudo do zero novamente.

Resumo em uma frase

Os autores criaram um novo "método de equilíbrio" que ensina o professor da inteligência artificial a avaliar melhor os passos do aprendizado, tornando o treinamento mais rápido, estável e capaz de lidar com problemas gigantes e complexos, como desenhar novas moléculas para remédios ou organizar redes de dados.

Em suma: Eles transformaram um processo de "adivinhação arriscada" em um "sistema de equilíbrio confiável", permitindo que a IA descubra soluções geniais de forma muito mais eficiente.

Each language version is independently generated for its own context, not a direct translation.

Título: Avaliando GFlowNets a partir de Episódios Parciais para Treinamento Baseado em Políticas Estável e Flexível

Autores: Puhua Niu, Shili Wu, Xiaoning Qian (Texas A&M University & Brookhaven National Laboratory)

1. Problema e Contexto

As Redes de Fluxo Generativo (GFlowNets) são modelos generativos projetados para amostrar candidatos em espaços combinatórios (como grafos, sequências ou moléculas) com probabilidade proporcional a uma função de recompensa $R(x)$ . O treinamento de GFlowNets visa alinhar a distribuição de trajetórias geradas por uma política forward ( $\pi_F$ ) com uma distribuição alvo baseada em recompensas.

Existem duas abordagens principais de treinamento:

Baseada em Valores (Value-based): Utiliza condições de equilíbrio de fluxo (como Sub-Trajectory Balance - Sub-TB) para estimar fluxos não normalizados. É robusta, mas pode ter alta variância e requer políticas de coleta de dados (off-policy) complexas.
Baseada em Políticas (Policy-based): Utiliza um framework Actor-Critic, onde um avaliador (Critic) estima a divergência de Kullback-Leibler (KL) entre as trajetórias forward e backward para atualizar a política (Actor).

O Desafio Principal:
Nas abordagens baseadas em políticas, a estimativa confiável da função de avaliação $V(s)$ (que mede a divergência de distribuição a partir de um estado $s$ ) permanece um problema aberto. Métodos anteriores (como o objetivo $\lambda$ -TD) frequentemente sofrem de instabilidade, viés ou variância alta, especialmente em grafos acíclicos direcionados (DAGs) complexos. Além disso, métodos baseados em políticas tradicionais muitas vezes exigem treinamento on-policy (coleta de dados com a mesma política sendo otimizada), limitando a eficiência e a flexibilidade, e dificultam a integração de políticas backward parametrizadas.

2. Metodologia Proposta: Sub-EB

Os autores propõem uma nova abordagem chamada Subtrajectory Evaluation Balance (Sub-EB). A ideia central é estabelecer uma conexão teórica direta entre a função de fluxo de estado $F(s)$ (usada em métodos baseados em valores) e a função de avaliação $V(s)$ (usada em métodos baseados em políticas).

Conexão Teórica

O trabalho demonstra que, para uma política forward fixa $\pi_F$ , a condição de equilíbrio de fluxo logarítmico aplicada à função de fluxo $F$ implica diretamente uma condição suficiente para a função de avaliação $V$ .
Especificamente, a condição Sub-EB para uma função de avaliação $V$ é definida como:
$\mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_F(\tau_{i:j}|s_i) \exp V(s_i) \right) \right] = \mathbb{E}_{P_F(\tau_{i:j})} \left[ \log \left( P_B(\tau_{i:j}|s_j) \exp V(s_j) \right) \right]$
Onde $\tau_{i:j}$ representa um sub-episódio (parcial) da trajetória. Esta condição garante que a diferença nas divergências aprendidas entre dois estados corresponda à divergência verdadeira entre as distribuições de subtrajetórias nesses estados.

Objetivo de Treinamento (Sub-EB Objective)

Com base nessa condição, os autores definem uma nova função de perda para aprender $V(\cdot; \phi)$ :
$L_V(\phi) := \mathbb{E}_{P_F(\tau)} \left[ \sum_{\tau_{i:j}} w_{j-i} (\delta_V(\tau_{i:j}; \phi))^2 \right]$
Onde $\delta_V$ é o desequilíbrio logarítmico entre o fluxo forward e o fluxo backward (ajustado por $V$ ) em subtrajetórias.

Vantagens Chave da Metodologia:

Estabilidade: Ao utilizar subtrajetórias inteiras (e não apenas arestas ou passos individuais como no $\lambda$ -TD), o método obtém um aprendizado mais equilibrado de $V$ , reduzindo a variância e melhorando a convergência.
Flexibilidade com Políticas Backward Parametrizadas: Diferente de métodos anteriores que exigiam uma política backward fixa ( $\pi_B$ ), o objetivo Sub-EB permite atualizar $\pi_B$ e $V$ conjuntamente em um único passo, sem a necessidade de fases separadas de treinamento.
Treinamento Offline: A flexibilidade do Sub-EB permite a integração de políticas de coleta de dados offline ( $\pi_D \neq \pi_F$ ), permitindo o uso de dados pré-existentes ou técnicas de busca local para explorar regiões de alta recompensa, algo que métodos baseados em políticas puros tradicionalmente não suportavam bem.

3. Contribuições Principais

Estabelecimento da Conexão Teórica: Provar que a condição de equilíbrio de fluxo (Sub-TB) para a função de fluxo $F$ é equivalente à condição de equilíbrio de avaliação (Sub-EB) para a função de divergência $V$ .
Novo Objetivo (Sub-EB): Introdução de um objetivo de treinamento baseado em subtrajetórias para aprender a função de avaliação $V$ de forma mais confiável do que o $\lambda$ -TD.
Flexibilidade Aprimorada: Demonstração de que o Sub-EB suporta nativamente políticas backward parametrizadas e treinamento offline, eliminando a necessidade de algoritmos de duas fases complexos.
Validação Empírica: Resultados abrangentes em tarefas sintéticas e do mundo real mostrando superioridade em estabilidade e desempenho.

4. Resultados Experimentais

Os autores avaliaram o método em quatro conjuntos de experimentos distintos:

A. Hypergrids (Ambientes Sintéticos)

Configuração: Grades 2D e 3D de alta dimensão (ex: $256 \times 256$ ).
Resultados: O método Sub-EB demonstrou convergência significativamente mais rápida e maior estabilidade em comparação com o método baseado em políticas anterior (RL/ $\lambda$ -TD) e métodos baseados em valores (Sub-TB, CV).
Ablação: O uso de políticas backward parametrizadas com Sub-EB (Sub-EB-P) resultou no melhor desempenho geral, validando a capacidade de aprendizado conjunto.

B. Design de Sequências Biológicas e Moleculares

Datasets: Sequências de nucleotídeos (SIX6, PHO4) e moléculas (QM9, sEH).
Resultados: O Sub-EB superou ou igualou o desempenho do RL em modelagem de distribuição (medido por DTV e DJSD) e descoberta de modos.
Descoberta de Modos: A versão offline (Sub-EB-B), que incorpora técnicas de busca local, encontrou mais modos de alta recompensa mais rapidamente, validando a capacidade de integrar técnicas de exploração offline.

C. Aprendizado de Estrutura de Redes Bayesianas (BN)

Escala: Problemas com 5, 10 e 15 nós (espaços de estado exponencialmente grandes, até $10^{35}$ ).
Métricas: Recompensa média dos top 100 grafos, diversidade e Flow Consistency in Sub-graphs (FCS).
Resultados: O Sub-EB alcançou a maior recompensa média e convergência mais rápida entre os métodos testados (incluindo Q-Much e Sub-TB). Mantive uma diversidade adequada, evitando colapso de modo.

D. Design de Grafos Moleculares

Tarefa: Geração de moléculas com base em subestruturas pré-definidas (LogP e JNK3).
Resultados: O Sub-EB obteve a maior recompensa média no tarefa JNK3 e convergência rápida, superando o Sub-TB e o Q-Much, mantendo diversidade competitiva.

5. Significado e Conclusão

Este trabalho representa um avanço significativo na teoria e prática das GFlowNets ao unificar as perspectivas baseadas em valores e baseadas em políticas.

Solução para Instabilidade: O Sub-EB resolve o problema crônico de instabilidade no treinamento de políticas para GFlowNets, oferecendo uma maneira teoricamente fundamentada e empiricamente robusta de estimar a divergência de políticas.
Flexibilidade Operacional: Ao permitir o treinamento offline e o uso de políticas backward parametrizadas, o método abre caminho para aplicações em cenários onde a coleta de dados é cara ou onde se deseja aproveitar dados históricos.
Escalabilidade: A eficácia demonstrada em espaços combinatórios massivos (como estruturas de Redes Bayesianas e design de moléculas) posiciona o Sub-EB como uma ferramenta viável para problemas complexos do mundo real que exigem exploração eficiente e amostragem diversificada.

Em resumo, o Sub-EB não apenas melhora a estabilidade do treinamento, mas também expande o horizonte de aplicações das GFlowNets, tornando-as mais práticas e poderosas para tarefas de otimização combinatória.