Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Este artigo apresenta o Cylon, uma solução de data frame distribuído de alto desempenho que integra paradigmas de computação sem servidor e HPC, demonstrando que o uso de comunicação direta via NAT Traversal em funções AWS Lambda permite atingir uma eficiência de escalabilidade próxima à de clusters tradicionais (EC2) para aplicações intensivas em dados de aprendizado de máquina.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski, Geoffrey Fox, Yue Cheng, Judy Fox

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa organizar uma festa gigantesca com milhões de convidados (os dados). No passado, para fazer isso, você precisava alugar um salão enorme, contratar seguranças, arrumar as cadeiras e ficar lá o dia todo, mesmo que a festa acabasse às 2 da manhã. Isso é como usar os servidores tradicionais (HPC ou EC2): você paga pelo espaço o tempo todo, quer a festa esteja cheia ou vazia.

Agora, imagine uma nova ideia: Serverless (como o AWS Lambda). É como se você não alugasse o salão, mas sim chamasse "ajudantes" (funções) apenas quando eles são necessários. Você chama um ajudante para cortar a comida, outro para servir a bebida, e paga apenas pelos segundos que eles trabalham. É muito eficiente e barato para picos de trabalho.

O Problema:
O problema é que, em festas tradicionais (servidores), os ajudantes podem conversar entre si gritando de um lado para o outro (comunicação direta e rápida). Mas no modelo "Serverless", os ajudantes são isolados. Eles não podem se ver nem se falar diretamente. Para passar uma mensagem, um ajudante tem que escrever um bilhete, colocar em um armário compartilhado (como o Amazon S3 ou Redis), e o outro ajudante tem que ir até lá buscar. Isso é lento e cria um gargalo, como se todos tivessem que fazer fila no balcão para se comunicar.

A Solução do Artigo (Cylon e o "Hole Punching"):
Os autores criaram uma ferramenta chamada Cylon. Pense no Cylon como um "super-organizador" que sabe como fazer os ajudantes isolados conversarem diretamente, sem precisar usar o armário compartilhado.

Eles usaram uma técnica chamada NAT Hole Punching (ou "furação de buraco no NAT").

  • A Analogia: Imagine que cada ajudante está em uma casa com uma porta trancada e um porteiro (o NAT) que só deixa entrar quem ele conhece. Normalmente, eles não podem se encontrar.
  • O Truque: O Cylon usa um "árbitro" (um servidor de encontro) que diz para o porteiro do Ajudante A: "Ei, deixe o Ajudante B entrar agora!". Ao mesmo tempo, diz para o porteiro do Ajudante B: "Deixe o Ajudante A entrar!".
  • O Resultado: Os dois "abrem a porta" ao mesmo tempo e criam um túnel direto entre eles. Agora, eles podem gritar e conversar instantaneamente, como se estivessem no mesmo salão, mesmo estando em casas diferentes.

O que eles descobriram?

  1. Velocidade: Com esse "túnel direto", a comunicação ficou 10 a 100 vezes mais rápida do que usar o armário compartilhado (S3/Redis).
  2. Eficiência: Eles testaram com 64 ajudantes (nós) e descobriram que o sistema "Serverless" ficou 93,5% tão eficiente quanto o sistema tradicional de salão alugado. Ou seja, quase a mesma velocidade, mas pagando muito menos.
  3. Custo: Para trabalhos que explodem de repente (como processar dados de terremotos ou genomas), o Serverless é muito mais barato. Se você alugar o salão (EC2) e ele ficar vazio, você perde dinheiro. No Serverless, você só paga quando o trabalho acontece.

Por que isso importa?
Isso muda as regras do jogo para cientistas que lidam com dados massivos (como previsão do tempo, inteligência artificial, genética e astronomia). Antes, eles tinham que usar supercomputadores caros e complexos para processar dados rapidamente. Agora, eles podem usar a "nuvem" de forma inteligente, pagando apenas pelo que usam, e ainda assim ter a velocidade necessária para fazer cálculos complexos.

Em resumo:
O artigo mostra como transformar a "festa Serverless" (que antes era lenta para os convidados conversarem) em uma festa super-rápida e eficiente, usando um truque de "abrir portas" diretas entre os ajudantes. Isso permite que cientistas processem dados do mundo inteiro de forma mais rápida, barata e fácil.