Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis

Este artigo apresenta o Praxium, um framework baseado em IA que utiliza telemetria e análise de dependências para detectar anomalias em arquiteturas de microsserviços e inferir suas causas raiz relacionadas a instalações de software, alcançando alta precisão e escalabilidade em ambientes de CI/CD.

Rohan Kumar, Jason Li, Zongshun Zhang, Syed Mohammad Qasim, Gianluca Stringhini, Ayse Kivilcim Coskun

Publicado 2026-03-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de um restaurante muito famoso e moderno, onde cada prato é preparado por uma equipe diferente de chefs (os "microserviços") que trabalham em cozinhas separadas, mas precisam se comunicar o tempo todo para entregar o pedido completo ao cliente.

O Praxium é como um detetive de inteligência artificial que você contrata para vigiar esse restaurante.

Aqui está a história de como ele funciona, explicada de forma simples:

1. O Problema: A Cozinha Caótica

Hoje em dia, restaurantes modernos (aplicações na nuvem) mudam o cardápio o tempo todo. Os chefs trocam ingredientes, novos utensílios chegam e receitas são atualizadas várias vezes ao dia (isso é o que chamam de CI/CD e rollouts).

O problema é que, quando um prato chega queimado ou com gosto estranho (uma anomalia), é muito difícil saber quem foi o culpado. Foi o chef que trocou o sal? Foi o novo forno? Ou foi o garçom que derrubou a bandeja?
Antes, os gerentes (engenheiros de confiabilidade) tinham que ler centenas de diários de bordo manualmente para descobrir o erro. Isso demorava muito e, quando o restaurante estava cheio, eles não conseguiam dar conta.

2. A Solução: O Detetive Praxium

O Praxium é um sistema que une três ferramentas para resolver esse mistério:

A. O "Diário de Compras" (PraxiPaaS)

Imagine que, toda vez que um chef muda um ingrediente, o sistema tira uma foto instantânea do que mudou.

  • Como funciona: O Praxium usa uma ferramenta chamada PraxiPaaS que lê os "rótulos" dos ingredientes (os pacotes de software) que foram instalados ou atualizados. Ele cria um registro cronológico de tudo que mudou na cozinha.

B. O "Olho Mágico" (Detecção de Anomalias)

O Praxium tem um "olho mágico" treinado para saber como é a cozinha funcionando perfeitamente.

  • Como funciona: Ele usa uma tecnologia chamada VAE (um tipo de inteligência artificial) que aprendeu como é o ritmo normal da cozinha (quanto tempo demora para cozinhar, quanto gás é usado, etc.).
  • Se o ritmo muda de repente (o forno esquenta demais, o tempo de entrega aumenta), o "olho mágico" grita: "Ei, algo está errado aqui!". Ele não precisa de um humano para dizer isso; ele sabe o que é "normal" e o que é "estranho".

C. O "Detetive de Causas" (Análise de Causalidade)

Aqui está a parte mais brilhante. Quando o "olho mágico" grita que algo está errado, o Praxium não aponta para o último chef que entrou na cozinha. Ele usa um mapa de dependências (quem depende de quem).

  • A Analogia do Efeito Dominó: Se o prato final está ruim, o Praxium olha para a linha de produção. Ele sabe que o "Chef do Molho" depende do "Chef da Carne". Se o molho está ruim, ele não culpa o "Chef da Salada" que está longe.
  • Ele usa uma técnica chamada Impacto Causal. Ele pergunta: "Se eu tivesse voltado no tempo e não tivesse instalado aquele novo tempero 10 minutos atrás, o prato ainda estaria ruim?". Ao simular isso, ele consegue dizer com certeza: "Foi a atualização do tempero X que estragou tudo".

3. Como eles testaram isso?

Os criadores do Praxium montaram um "restaurante de brinquedo" (um sistema de rede social simulado) e fizeram de tudo para estragar a comida de propósito:

  • Eles deixaram o forno superaquecer (CPU).
  • Eles encheram a geladeira de lixo até não sobrar espaço (Disco).
  • Eles fizeram a equipe esquecer de guardar as panelas (Vazamento de Memória).

O Praxium conseguiu detectar o problema quase 100% das vezes e, o mais importante, acertou qual ingrediente novo foi o culpado, mesmo quando vários ingredientes foram trocados em sequência rápida.

4. Por que isso é importante?

Antes, se algo quebrava na nuvem, os técnicos tinham que adivinhar ou passar horas lendo logs. Com o Praxium:

  1. É mais rápido: O sistema avisa imediatamente.
  2. É mais preciso: Ele diz exatamente qual atualização de software causou o problema.
  3. Economiza tempo: Os técnicos não precisam caçar o culpado; o detetive já entregou o nome dele na porta.

Em resumo: O Praxium é como ter um assistente superinteligente que vigia sua cozinha, sabe exatamente como tudo deve funcionar, e quando algo dá errado, ele olha para o diário de compras, traça a linha de produção e aponta o dedo para o ingrediente exato que estragou o prato, permitindo que você conserte o problema antes que os clientes fiquem bravos.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →