Heterogeneous Multi-Agent Reinforcement Learning with Attention for Cooperative and Scalable Feature Transformation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar a receita perfeita para um prato incrível (que, no mundo da tecnologia, é um modelo de Inteligência Artificial). Você tem uma despensa cheia de ingredientes básicos: farinha, ovos, açúcar, leite (estes são os dados brutos).

O problema é que, às vezes, apenas misturar os ingredientes originais não é suficiente para fazer o bolo ficar perfeito. Você precisa criar novos sabores combinando-os de formas inteligentes: talvez misturar o açúcar com limão, ou ferver o leite com canela. No mundo dos dados, isso se chama Transformação de Recursos (ou Feature Transformation).

Aqui está o que os autores desse paper fizeram, explicado de forma simples:

O Problema: A Cozinha Caótica

Antes, os chefs (algoritmos) tentavam criar essas novas combinações de duas formas ruins:

Chute e sorte: Tentavam todas as combinações possíveis, o que levava uma eternidade.
Regras fixas: Seguiam receitas antigas que não funcionavam para todos os pratos.

Além disso, quando usavam "robôs" (Agentes de Aprendizado por Reforço) para ajudar na cozinha, eles tinham dois grandes problemas:

A despensa crescia sem parar: A cada nova combinação criada, a lista de ingredientes ficava maior e mais confusa, deixando os robôs perdidos.
Falta de comunicação: Os robôs trabalhavam sozinhos. Um escolhia o ingrediente, o outro escolhia a mistura, mas eles não conversavam entre si. O resultado? Misturas estranhas e um bolo ruim.

A Solução: HAFT (O Time de Chefes Robôs)

Os autores criaram um novo sistema chamado HAFT. Eles imaginaram uma cozinha onde três robôs especialistas trabalham juntos, como uma equipe de elite:

O Chef de Ingredientes (Agente 1): Escolhe o primeiro ingrediente da lista.
O Chef de Misturas (Agente 2): Escolhe como misturar (ex: bater, ferver, cortar).
O Chef de Ingredientes (Agente 3): Escolhe o segundo ingrediente para completar a mistura.

Eles são "heterogêneos", o que significa que cada um tem uma função específica e especializada, como um time de futebol onde um é goleiro, outro é atacante e outro é zagueiro.

As Duas Grandes Inovações (Os Segredos do Sucesso)

1. O "Critic" Compartilhado (O Maestro da Cozinha)

Antes, cada robô olhava apenas para o seu próprio trabalho. No HAFT, existe um Maestro (chamado Shared Critic).

A Analogia: Imagine que o Maestro está no alto da cozinha, vendo todos os ingredientes, todas as misturas e o resultado final do prato. Ele não deixa os robôs agirem sozinhos. Ele diz: "Ei, vocês dois estão escolhendo ingredientes que não combinam!" ou "Ótima ideia, essa mistura vai funcionar!".
O Resultado: Isso força os robôs a cooperarem. Eles aprendem a se comunicar e a tomar decisões baseadas no que é melhor para o prato todo, não apenas para eles mesmos.

2. O "Foco Inteligente" (Atenção Multi-Cabeça)

Lembre-se que a lista de ingredientes crescia sem parar? Como os robôs não se perdiam?

A Analogia: Imagine que, em vez de ler uma lista de 1.000 ingredientes, o robô tem um superpoder de foco. Ele usa uma tecnologia chamada "Atenção" (como um holofote). Quando precisa escolher um ingrediente, o holofote ilumina apenas os 10 ou 20 ingredientes que realmente importam para aquele momento, ignorando o resto do caos.
O Resultado: Mesmo que a despensa fique gigante, o robô consegue escolher o ingrediente certo rapidamente, sem ficar lento ou confuso. Isso torna o sistema escalável (funciona bem mesmo com muitos dados).

O Que Aconteceu na Prática?

Os autores testaram essa ideia em 23 desafios diferentes (como prever preços de casas, diagnosticar doenças ou classificar e-mails).

Resultado: O time HAFT criou "receitas" (conjuntos de dados) que deixaram os modelos de Inteligência Artificial muito mais precisos do que os métodos antigos.
Velocidade: Eles foram mais rápidos que os concorrentes porque não perdem tempo olhando para ingredientes inúteis.
Explicabilidade: O legal é que, ao contrário de algumas IAs que são "caixas pretas", o HAFT consegue nos dizer exatamente como criou a nova receita (ex: "peguei o ingrediente A, multipliquei pelo B e tirei a raiz quadrada"). Isso é ótimo para áreas como medicina e finanças, onde precisamos entender o "porquê" da decisão.

Resumo Final

Pense no HAFT como um time de chefs robôs que, em vez de trabalhar isolados, têm um Maestro que coordena tudo e usam holofotes inteligentes para focar apenas no que importa. O resultado é uma cozinha onde novos sabores (dados) são criados de forma rápida, cooperativa e eficiente, fazendo com que a Inteligência Artificial fique muito mais inteligente e precisa.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

A transformação de características (feature transformation) é um processo crucial que melhora o desempenho de tarefas de aprendizado de máquina (especialmente em dados estruturados/tabulares) gerando novas características informativas através de cruzamentos matemáticos (ex: divisão, multiplicação, funções trigonométricas) das características originais.

Embora o aprendizado profundo tenha avançado, ele muitas vezes luta para capturar interações complexas em dados tabulares sem intervenção humana ou engenharia de características adequada. Métodos automatizados existentes enfrentam dois desafios principais:

Expansão Dinâmica do Espaço de Características: Durante o processo iterativo de transformação, o espaço de características cresce continuamente. Isso torna difícil para agentes de Aprendizado por Reforço (RL) tradicionais identificar quais características são essenciais para o próximo cruzamento, aumentando a complexidade temporal e a instabilidade.
Cooperação Insuficiente entre Agentes: Abordagens anteriores frequentemente dependem de trocas puramente locais (ex: decisões do agente anterior), limitando a consciência global do espaço de características. Isso resulta em políticas subótimas e espaços de características degradados devido à falta de comunicação coordenada entre os agentes responsáveis por selecionar características e operações.

2. Metodologia: Framework HAFT

Os autores propõem o HAFT (Heterogeneous multi-Agent reinforcement learning framework for cooperative and scalable Feature Transformation). O framework utiliza uma arquitetura de três agentes heterogêneos em cascata, projetados para trabalhar cooperativamente.

2.1. Agentes Heterogênicos em Cascata

O processo iterativo envolve três agentes com papéis específicos:

Agente de Cabeça (Head Feature Agent): Seleciona a primeira característica candidata ( $f_1$ ) do espaço de características atual.
Agente de Operação (Operation Agent): Seleciona uma operação matemática ( $o$ ) (ex: adição, seno, log) baseada na decisão do agente de cabeça e em uma máscara dinâmica (que impede operações inválidas, como raiz quadrada de números negativos).
Agente de Cauda (Tail Feature Agent): Seleciona a segunda característica candidata ( $f_2$ ) baseada nas decisões anteriores e no estado global.

Esses três agentes colaboram para criar uma nova característica ( $f_{new} = f_1 \circ f_2$ ), que é adicionada ao conjunto de características para a próxima iteração.

2.2. Estrutura Baseada em Atenção Multi-Cabeça (Feature Agents)

Para lidar com a expansão dinâmica do espaço de características (onde o número de características muda a cada passo), os agentes de características utilizam uma estrutura baseada em Transformers (Multi-Head Attention).

Vantagem: Diferente de redes MLP tradicionais que exigem tamanho de entrada fixo, a atenção multi-cabeça pode processar um conjunto de características de tamanho variável.
Mecanismo: O agente codifica o espaço de características atual, aplica auto-atenção para capturar interações complexas entre todas as características e gera uma distribuição de probabilidade para selecionar a característica mais relevante para o próximo cruzamento. Isso garante escalabilidade e capacidade de focar em características globalmente relevantes.

2.3. Agente de Operação Baseado em MLP

Como o conjunto de operações matemáticas é fixo e pequeno, o agente de operação utiliza uma rede simples baseada em MLP (Multi-Layer Perceptron) com uma máscara dinâmica de ação. A máscara zera a probabilidade de seleção de operações inválidas para as características escolhidas, garantindo transformações válidas.

2.4. Crítico Central Compartilhado (Shared Critic) e Decomposição de Vantagem

Para resolver o problema da cooperação insuficiente, o HAFT introduz um Crítico Central Compartilhado.

Função: Em vez de cada agente ter seu próprio crítico, um único crítico avalia as decisões de todos os agentes com base em informações globais do espaço de características.
Codificação de Estado: Para estabilizar o aprendizado, o estado de entrada do crítico é codificado em duas ramificações:
1. Estatísticas Distribucionais: Calcula médias, variâncias, quartis, etc., de todo o conjunto de características, normalizando para um vetor fixo.
2. Interação Baseada em Atenção: Usa atenção para capturar interações entre características e agrega em um vetor fixo.
Atualização de Política: Utiliza uma variante do algoritmo HAPPO (Heterogeneous Actor-Proposer Policy Optimization) com decomposição de vantagem sequencial. Isso permite atribuir crédito de forma justa a cada agente, considerando a ordem de decisão (Cabeça -> Operação -> Cauda) e estabilizando o treinamento em ambientes não estacionários.

3. Contribuições Principais

Novo Framework de Cooperação: Propõe o HAFT, que utiliza agentes heterogêneos para explorar o espaço de características de forma escalável e cooperativa, superando as limitações de métodos baseados em busca exaustiva ou heurística.
Arquitetura Heterogênea e Escalável:
- Implementa agentes de características baseados em Atenção Multi-Cabeça para lidar com espaços de características dinamicamente crescentes.
- Utiliza um Crítico Central para melhorar a comunicação e a coordenação entre os agentes, alinhando seus objetivos.
Técnicas de Estabilização: Introduz uma técnica de codificação de estado (estatísticas + atenção) para o crítico, mitigando a instabilidade causada pela mudança constante no tamanho do espaço de características.
Validação Empírica Rigorosa: Realiza experimentos extensivos em 23 conjuntos de dados reais (classificação e regressão), demonstrando superioridade sobre o estado da arte.

4. Resultados Experimentais

O HAFT foi comparado com 8 métodos de base (incluindo RDG, ERG, LDA, AFAT, NFS, TTG, GRFG e DIFER) e variantes ablatadas do próprio modelo.

Desempenho Geral: O HAFT superou consistentemente todos os métodos de base na maioria dos conjuntos de dados, alcançando os melhores resultados em métricas como F1-score (classificação) e 1-RAE (regressão).
Estudo de Ablação:
- A remoção do Crítico Compartilhado (HAFT-c) ou da Decomposição de Vantagem (HAFT-a) resultou em queda de desempenho, provando que a comunicação global e a atribuição de crédito são essenciais.
- A remoção da informação de interação no estado do crítico (HAFT-u) também degradou o desempenho, confirmando a importância de capturar interações entre características.
Escalabilidade e Eficiência: Em comparação com o GRFG (o método mais similar), o HAFT demonstrou um tempo de execução por iteração significativamente menor. Enquanto o GRFG depende de clustering (custoso), o HAFT usa atenção para seleção direta, tornando-o mais escalável para grandes conjuntos de dados.
Robustez: O modelo manteve desempenho superior independentemente do modelo de aprendizado de máquina utilizado na tarefa downstream (Random Forest, XGBoost, SVM, KNN, Ridge).
Interpretabilidade: O estudo de caso no conjunto de dados Messidor_features mostrou que o HAFT gera características traceáveis e explicáveis (ex: derivadas de características médicas específicas), melhorando a performance em 13,9% e permitindo a compreensão da lógica de transformação.

5. Significado e Conclusão

O trabalho HAFT representa um avanço significativo na Engenharia de Características Automatizada (AutoFE). Ao combinar Aprendizado por Reforço Multi-Agente (MARL) com mecanismos de atenção e críticos centralizados, o framework resolve os problemas de escalabilidade e coordenação que limitavam abordagens anteriores.

A principal contribuição teórica e prática é a demonstração de que a cooperação estruturada entre agentes especializados, guiada por uma visão global do estado (via crítico compartilhado e codificação robusta), permite a descoberta de transformações de características complexas e não lineares que melhoram substancialmente a performance de modelos preditivos em dados tabulares, mantendo a interpretabilidade e a eficiência computacional.