Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

Die Arbeit stellt Cylon vor, eine hochperformante, verteilte Datenframe-Lösung, die durch die Implementierung einer serverlosen Kommunikator-Architektur mit NAT-Traversal-Techniken die Kommunikationsengpässe bei ML-Datenverarbeitung überbrückt und damit eine Skalierungseffizienz von AWS Lambda erreicht, die innerhalb von 6,5 % der Leistung traditioneller EC2-Cluster liegt.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski, Geoffrey Fox, Yue Cheng, Judy Fox

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachjargon, aber mit ein paar kreativen Bildern.

Das große Problem: Der langsame Lieferdienst

Stell dir vor, du hast eine riesige Aufgabe: Du musst Millionen von Daten (wie Fotos, Wetterdaten oder Gen-Informationen) sortieren und zusammenfügen, um ein künstliches Intelligenz-Modell zu trainieren.

Früher hat man dafür riesige, teure Computerhallen (Rechenzentren) gemietet, in denen alle Computer direkt miteinander verbunden waren – wie ein Team von Handwerkern, die sich direkt im selben Raum zuflüstern können. Das war schnell, aber extrem teuer und unflexibel.

Heute nutzen viele die „Cloud" (z. B. Amazon AWS). Das ist wie ein riesiger, flexibler Lieferdienst. Du mietest nur die Computer, die du gerade brauchst, und zahlst nur für die Zeit, in der sie laufen. Das nennt man „Serverless".

Aber hier liegt das Problem:
In diesem Cloud-Modell sind die Computer wie isolierte Inseln. Wenn Computer A Daten an Computer B schicken will, darf er nicht direkt „rufen". Er muss die Daten erst in ein Postfach (einen Cloud-Speicher wie AWS S3) legen, Computer B muss dann hingehen, das Postfach öffnen und die Daten holen.

  • Die Analogie: Stell dir vor, du willst einem Kollegen in der Nachbarschaft eine Nachricht übergeben. Statt einfach durch das offene Fenster zu rufen (direkte Verbindung), musst du den Brief erst zur Post bringen, er muss ihn abholen, zum Briefkasten laufen und ihn dann wieder abholen. Das dauert ewig und kostet viel Geld, wenn man es oft macht.

Die Lösung: Cylon und der „NAT-Hole-Punching"-Trick

Die Forscher haben eine neue Lösung namens Cylon entwickelt. Cylon ist wie ein super-schnelles Werkzeugkasten-Set für Daten, das auf Python basiert (eine beliebte Programmiersprache).

Aber das eigentliche Genie dieser Arbeit ist der Weg, wie die Computer miteinander reden. Die Forscher haben einen Trick namens „NAT Traversal TCP Hole Punching" angewendet.

Die Analogie:
Stell dir vor, alle Computer sind in einem großen Gebäude mit verschlossenen Türen (das ist die Firewall/NAT). Normalerweise können sie sich nicht sehen.
Der Trick ist wie ein geheimes Treffen:

  1. Computer A und Computer B gehen beide zur Hintertür des Gebäudes und klopfen gegen die Wand.
  2. Ein kleiner Wächter (ein Server) sieht, wer klopft, und sagt beiden: „Hey, Computer A ist jetzt bei Tür 5, Computer B bei Tür 7. Ihr könnt jetzt direkt durch die Wand sprechen!"
  3. Plötzlich haben sie eine direkte Verbindung ohne Umweg über das Postfach.

Dadurch können die Computer so schnell miteinander reden, als wären sie im selben Raum, obwohl sie eigentlich auf verschiedenen Servern der Cloud sitzen.

Was haben sie herausgefunden?

Die Forscher haben Tests gemacht, bei denen sie bis zu 64 dieser „Cloud-Computer" gleichzeitig arbeiten ließen, um Daten zu sortieren (eine sogenannte „Join"-Operation).

  1. Geschwindigkeit: Mit ihrem neuen Trick (direkte Verbindung) waren die Serverless-Computer fast genauso schnell wie die teuren, traditionellen Computer (EC2). Der Unterschied betrug nur 6,5 %. Das ist sensationell, denn bisher dachte man, Serverless sei viel zu langsam für solche schweren Aufgaben.
  2. Vergleich mit alten Methoden: Wenn sie den alten Weg über das Postfach (AWS S3) oder einen Zwischenspeicher (Redis) genutzt hätten, wäre es 10- bis 100-mal langsamer gewesen.
  3. Kosten: Da man bei Serverless nur für die Zeit bezahlt, in der die Computer wirklich arbeiten, und keine teuren Hallen mieten muss, ist es für Aufgaben, die nur kurz und heftig anfallen (wie ein plötzlicher Datensturm), extrem günstig. Ein Test kostete nur wenige Cent, während ein traditioneller Server dafür stündlich bezahlt werden müsste, auch wenn er nur 5 Minuten arbeitete.

Warum ist das wichtig?

Früher dachte man: „Serverless ist super für einfache Aufgaben, aber für schwere Wissenschaft (wie Erdbeben-Vorhersage, Genomforschung oder Astronomie) braucht man immer noch die teuren Supercomputer."

Diese Arbeit zeigt: Das stimmt nicht mehr.
Mit Cylon und dem direkten Kommunikations-Trick können Wissenschaftler jetzt:

  • Riesige Datenmengen (wie alle Genome der Welt) viel schneller verarbeiten.
  • Geld sparen, indem sie keine teuren Serverhallen mehr vorhalten müssen.
  • Experimente machen, die sich in Sekunden an die aktuelle Last anpassen (wenn plötzlich mehr Daten kommen, schaltet das System einfach mehr Computer hinzu).

Zusammenfassung in einem Satz

Die Forscher haben einen cleveren Trick gefunden, damit Cloud-Computer direkt miteinander „flüstern" können, statt sich mühsam Briefe zu schicken, wodurch sie fast so schnell wie teure Supercomputer werden, aber nur für das bezahlen, was sie wirklich tun.