Learning the APT Kill Chain: Temporal Reasoning over Provenance Data for Attack Stage Estimation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um crime complexo que aconteceu dentro de uma grande empresa. O ladrão (o hacker) não entra, rouba tudo e sai correndo. Em vez disso, ele entra sorrateiramente, fica escondido por meses, muda de disfarce, espalha-se por vários cômodos e, só no final, leva o cofre.

Esse é o mundo das Ameaças Persistentes Avançadas (APTs). O problema é que os sistemas de segurança atuais são como guardas que só reconhecem o rosto de ladrões conhecidos. Se o ladrão usar uma peruca nova ou entrar por uma janela que ninguém vigia, o guarda não percebe.

Aqui entra o StageFinder, a nova ferramenta apresentada por Trung Phan e Thomas Bauschert. Vamos explicar como ela funciona usando analogias do dia a dia:

1. O Problema: O Ladrão que se Esconde no Caos

Os hackers modernos deixam pistas muito pequenas e espalhadas.

No computador (Host): Um arquivo é criado, um programa é executado.
Na rede (Network): Um dado é enviado para um servidor estranho.

Os sistemas antigos olham para essas pistas separadamente. É como se um guarda olhasse apenas para a câmera de segurança da porta da frente, e outro olhasse apenas para o registro de chamadas telefônicas, sem nunca conversar um com o outro. O resultado? O ladrão passa despercebido.

2. A Solução: O "Detetive Super-Inteligente" (StageFinder)

O StageFinder é um sistema que une todas as pistas em uma única história. Ele funciona em três etapas principais:

A. A Montagem do Quebra-Cabeça (Fusão de Dados)

Imagine que você tem duas caixas de peças de quebra-cabeça: uma com fotos de pessoas (computadores) e outra com fotos de carros (rede).
O StageFinder pega essas peças e as cola juntas antes de tentar montar a imagem. Ele cria um Grafo de Procedência.

Analogia: É como se o detetive dissesse: "O arquivo virus.exe foi criado pelo powershell.exe (pessoa) e, ao mesmo tempo, esse mesmo powershell enviou um e-mail para um IP suspeito (carro)".
Ao juntar essas informações, o sistema vê a causalidade: "O que aconteceu aqui causou aquilo ali".

B. O Mapa Mental (Rede Neural de Grafos - GNN)

Depois de montar o quebra-cabeça, o sistema precisa entender a estrutura dele.

Analogia: Imagine que o sistema é um arquiteto que olha para o mapa da cidade. Ele não vê apenas casas isoladas; ele vê como as ruas conectam os bairros, onde estão os becos sem saída e quais são as rotas principais.
O GNN (Rede Neural de Grafos) analisa essa estrutura complexa para entender quem está conectado a quem e qual é o "peso" dessa conexão.

C. A Previsão do Futuro (Memória de Curto e Longo Prazo - LSTM)

Aqui está a mágica do tempo. Um crime não acontece em um instante; é uma sequência.

Analogia: Pense em assistir a um filme de suspense. Se você olhar apenas para um quadro estático, não sabe se é o início, o meio ou o clímax. Você precisa ver a sequência dos quadros para entender a história.
O LSTM (um tipo de inteligência artificial com "memória") assiste a essa sequência de quadros (os dados do quebra-cabeça ao longo do tempo). Ele lembra do que aconteceu há 10 minutos para entender o que está acontecendo agora.
Ele consegue dizer: "Ok, primeiro eles estavam apenas olhando a casa (Reconhecimento), depois entraram pela janela (Comprometimento Inicial), agora estão subindo as escadas (Elevação de Privilégio) e, finalmente, estão levando o cofre (Exfiltração)".

3. O Resultado: Menos Falsos Alarmes, Mais Precisão

Os autores testaram o StageFinder com dados reais de simulações de hackers (os conjuntos de dados DARPA).

Comparação: Eles compararam com outros sistemas famosos (Cyberian e NetGuardian).
O Veredito: O StageFinder acertou 96% das vezes em identificar em qual fase o ataque estava.
A Grande Vantagem: Sistemas antigos ficavam confusos, mudando de opinião a cada segundo (ex: "Agora é um roubo, agora não é, agora é de novo"). O StageFinder é estável. Ele mantém a calma e segue a lógica do ataque, reduzindo a confusão em 31%.

Resumo em uma Frase

O StageFinder é como um detetive que não apenas olha para as câmeras e os telefones separadamente, mas que consegue ver a história completa do crime, entendendo a sequência de eventos para dizer exatamente em qual etapa do roubo o hacker está, permitindo que a segurança da empresa reaja da maneira certa, na hora certa.

Isso significa que, em vez de gritar "Fogo!" toda vez que alguém acende uma vela (falso alarme), o sistema sabe exatamente quando o incêndio começou e em qual cômodo ele está se espalhando.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: StageFinder

1. Problema e Contexto

As Ameaças Persistentes Avançadas (APTs) representam um desafio crítico na cibersegurança moderna devido à sua natureza furtiva, longos tempos de permanência e progressão em múltiplos estágios (desde reconhecimento até exfiltração de dados).

Desafios Atuais:
- Sistemas tradicionais baseados em assinaturas falham em detectar Táticas, Técnicas e Procedimentos (TTPs) novos ou evolutivos.
- Métodos baseados em anomalias sofrem com altas taxas de falsos positivos e falta de consciência contextual sobre progressões de ataques de múltiplos passos.
- O comportamento "low-and-slow" das APTs dispersa indicadores fracos através de logs e hosts, dificultando a inferência causal e a correlação de eventos.
- Abordagens existentes (como Cyberian e NetGuardian) geralmente tratam dados de host e rede como fluxos independentes, ignorando dependências causais estruturais, ou focam excessivamente em modelos sequenciais sem capturar a topologia do ataque.

O objetivo central é realizar uma estimativa precisa e estável dos estágios de ataque (Stage Estimation) para permitir defesas cibernéticas adaptativas e conscientes do contexto.

2. Metodologia: O Framework StageFinder

O artigo propõe o StageFinder, um framework de aprendizado de grafos temporais que infere a progressão de ataques multiestágio a partir de dados de proveniência (provenance) fundidos de host e rede. A arquitetura opera em um pipeline sequencial:

A. Coleta e Fusão Precoce (Early Fusion):
- O sistema coleta logs de nível de host (ex: Sysmon, criação de processos, I/O de arquivos) e alertas de rede (ex: IDS/IPS, firewall).
- Diferente de métodos que analisam essas fontes separadamente, o StageFinder realiza uma fusão precoce durante a construção do grafo. Alertas de rede são modelados como nós de primeira classe, ligados diretamente às entidades de host (processos, sockets) que os causaram. Isso preserva a causalidade e a consistência contextual entre anomalias de rede e atividades locais.
B. Construtor de Grafos de Proveniência:
- Os dados são transformados em um Grafo de Proveniência Fundido ( $G_t$ ) para cada janela de tempo.
- Nós: Entidades como processos, arquivos, sockets, endereços IP e eventos de alerta.
- Arestas: Dependências causais ou temporais (ex: spawn, read, write, connect, triggered by).
- Isso permite que o modelo raciocine sobre cadeias de ataque completas, unindo a causalidade intra-host com evidências inter-redes.
C. Codificador de Grafos (GNN):
- Um Rede Neural de Grafos (GNN) codifica os grafos fundidos em vetores de baixa dimensão (embeddings).
- O GNN utiliza mecanismos de passagem de mensagens para agregar dependências estruturais e contextuais, capturando padrões complexos entre entidades que modelos puramente sequenciais ignorariam.
- As características dos nós e arestas incluem atributos semânticos (comandos, assinaturas de alerta), temporais e estatísticos.
D. Estimador de Estágio Baseado em LSTM:
- A sequência de embeddings dos grafos ( $g_1, g_2, ..., g_t$ ) é processada por uma rede Long Short-Term Memory (LSTM).
- A LSTM modela as dependências temporais de longo prazo, estimando a probabilidade do estágio atual do atacante na cadeia de morte (Kill Chain), alinhada com o framework MITRE ATT&CK (Reconhecimento, Comprometimento Inicial, Escalação de Privilégio, Movimento Lateral, C2, Exfiltração).
E. Mapeamento de Estágio de Ataque:
- As probabilidades de saída são convertidas em estágios discretos interpretáveis, permitindo que analistas entendam a progressão do ataque e acionem respostas automatizadas.

3. Contribuições Chave

Fusão Precoce de Proveniência: Integração direta de alertas de rede e logs de host na construção do grafo, superando a lacuna de atribuição causal entre atividades de rede e processos locais.
Aprendizado Temporal-Grafo Unificado: Combinação de GNNs para raciocínio estrutural (causalidade) e LSTMs para raciocínio temporal (evolução do ataque), abordando as limitações de abordagens puramente sequenciais ou puramente estruturais.
Estratégia de Treinamento Híbrida:
- Pré-treinamento Auto-supervisionado: Utilização do grande conjunto de dados não rotulado DARPA OpTC para aprender dependências temporais genéricas entre host e rede.
- Ajuste Fino (Fine-tuning) Supervisionado: Uso do conjunto de dados rotulado DARPA Transparent Computing (TC) para discriminação específica de estágios de ataque.
Estabilidade Temporal: O modelo foi projetado especificamente para reduzir a volatilidade das previsões (flutuações entre janelas de tempo), garantindo uma estimativa de estágio mais suave e confiável.

4. Resultados Experimentais

O framework foi avaliado nos conjuntos de dados DARPA TC (Engagement 5) e DARPA OpTC, comparado com estados da arte (Cyberian e NetGuardian).

Desempenho Geral:
- F1-Score Macro: O StageFinder alcançou 0.96, superando o Cyberian (0.90) e o NetGuardian (0.92).
- Precisão e Recall: Ambos atingiram 0.96, indicando alta detecção com poucos falsos positivos.
- AUPR (Área sob a Curva de Precisão-Recall): 0.97, demonstrando robustez frente ao desequilíbrio de classes.
Estabilidade Temporal:
- A Taxa de Flip Temporal (TFR) foi reduzida para 0.125, uma melhoria de 31% em relação às abordagens de base (0.182 e 0.160). Isso confirma que o modelo produz transições de estágio mais suaves e coerentes.
Desempenho por Estágio:
- O modelo superou consistentemente as linhas de base em todos os estágios (k=0 a k=6), com ganhos particularmente notáveis em fases críticas como Movimento Lateral e Exfiltração, onde a correlação causal entre host e rede é vital.
Análise de Atenção:
- Visualizações da atenção da LSTM mostraram que o StageFinder foca de forma concentrada e estável nos segmentos temporais relevantes (ex: fases de C2 e Exfiltração), ao contrário dos modelos baselines que exibem picos de atenção difusos e irregulares.

5. Significado e Impacto

O trabalho do StageFinder é significativo por demonstrar que a combinação de modelagem de grafos baseada em proveniência e raciocínio temporal é superior para a compreensão de intrusões multiestágio.

Defesa Adaptativa: Ao identificar com precisão o estágio do ataque, os sistemas de defesa podem ajustar suas respostas (ex: monitoramento seletivo no reconhecimento vs. contenção agressiva no movimento lateral).
Interpretabilidade: A estrutura baseada em grafos e a saída probabilística fornecem insights acionáveis para analistas de segurança, facilitando a caça a ameaças (threat hunting).
Escalabilidade: A arquitetura modular e o uso de pré-treinamento em grandes conjuntos de dados não rotulados sugerem viabilidade para ambientes corporativos complexos.

Em suma, o StageFinder estabelece um novo padrão para a inferência de estágios de APT, superando as limitações de abordagens anteriores ao integrar causalidade estrutural e dinâmica temporal em um único framework unificado.