Ursprüngliche Autoren: Zied Jenhani, Mounir Bensalem, Jasenka Dizdarević, Admela Jukan

Veröffentlicht 2026-05-07

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Zied Jenhani, Mounir Bensalem, Jasenka Dizdarević, Admela Jukan

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber winzigen Roboter (wie eine intelligente Kamera an einer Türklingel), der ein komplexes Rätsel lösen muss, etwa das Erkennen eines Gesichts. Das Problem ist, dass dieser Roboter klein ist, einen winzigen Akku und ein schwaches Gehirn hat. Wenn Sie ihn bitten, das gesamte Rätsel allein zu lösen, wird es ewig dauern, oder er könnte den Akku vor dem Abschluss verlieren.

Dieser Artikel untersucht einen cleveren Workaround namens Split Learning. Anstatt den winzigen Roboter alles erledigen zu lassen, teilen Sie die Aufgabe in zwei Hälften. Der Roboter erledigt den ersten, einfachen Teil des Rätsels und ruft dann die „Hinweise", die er gefunden hat, zu einem größeren, stärkeren Roboter in der Nähe (wie einem intelligenten Lautsprecher oder einem lokalen Server). Der größere Roboter beendet den schwierigen Teil des Rätsels und ruft die Antwort zurück.

Die Autoren dieses Artikels wollten herausfinden, welcher schnellste Weg ist, um dieses Rufen-und-Hören-Spiel mit echter, energieeffizienter Hardware zu realisieren (speziell ESP32-S3-Boards, die günstige, quelloffene Mikrocontroller sind).

Hier ist eine Aufschlüsselung ihrer Erkenntnisse mit einfachen Analogien:

1. Das „Rufen"-Problem: Die Wahl des richtigen Protokolls

Wenn der winzige Roboter seine Hinweise an den großen Roboter sendet, muss er eine „Sprache" oder eine „Zustellmethode" für die Datenübertragung wählen. Die Forscher testeten vier verschiedene Methoden, wie bei der Wahl zwischen verschiedenen Postdiensten:

UDP: Wie das Senden einer Postkarte. Es ist sehr schnell, weil Sie nicht auf eine Bestätigung warten müssen, aber wenn die Karte verloren geht, wissen Sie es nicht.
TCP: Wie ein Einschreiben. Es ist sehr zuverlässig (Sie erhalten eine Bestätigung), dauert aber länger wegen all des „Handshake"-Papierkrams vor dem Versenden des Briefes.
BLE (Bluetooth): Wie ein langsames, plapperndes Walkie-Talkie. Es verbindet sich gut, benötigt aber lange zum Aufbauen des Gesprächs und sendet Daten in sehr kleinen, fragmentierten Häppchen.
ESP-NOW: Wie ein spezialisierter, hochgeschwindigkeits-Walkie-Talkie, der keine formale Verbindung vorab aufbauen muss. Es schreit die Nachricht einfach heraus.

Der Gewinner: Überraschenderweise war ESP-NOW insgesamt am schnellsten. Obwohl es eine kleine „Umschlag"-Größenbegrenzung hat (es kann nicht riesige Datenblöcke auf einmal transportieren), spart es so viel Zeit durch das Überspringen des formalen Verbindungsaufbaus, dass es die anderen schlägt. Es schaffte die Hin-und-Rück-Reise (Hinweise senden und Antwort erhalten) in etwa 3,6 Sekunden, während Bluetooth über 10 Sekunden benötigte.

2. Das „Schneiden"-Problem: Wo wird die Aufgabe geteilt?

Die Forscher mussten auch entscheiden, genau wo das Rätsel geteilt wird.

Zu früh schneiden: Der winzige Roboter macht fast nichts, muss aber einen riesigen Haufen Hinweise an den großen Roboter senden. Dies verstopft das Netzwerk.
Zu spät schneiden: Der winzige Roboter macht fast alles, was für sein schwaches Gehirn zu lange dauert.

Sie testeten verschiedene „Schnittpunkte" in zwei beliebten KI-Modellen (MobileNet-V2 und ResNet50). Sie fanden heraus, dass der beste Ort zum Schneiden vom Modell und vom Netzwerk abhängt, aber im Allgemeinen wollten sie die „Goldilocks"-Zone finden, in der der winzige Roboter genau genug Arbeit leistet, ohne das Netzwerk zu überlasten.

3. Der „Intelligente Planer": Beam Search

Den perfekten Schnittpunkt zu finden, ist wie der Versuch, den besten Weg durch ein Labyrinth zu finden.

Brute Force: Jeden einzelnen möglichen Weg auszuprobieren. Dies garantiert den besten Weg, dauert aber ewig (Tage) zur Berechnung.
Greedy Search: Den ersten Weg zu nehmen, der gut aussieht. Es ist schnell, aber Sie könnten später in einer Sackgasse stecken bleiben.
Beam Search (Der Gewinner): Stellen Sie sich vor, Sie erkunden das Labyrinth, aber statt jeden Weg zu prüfen, behalten Sie zu jedem Zeitpunkt nur die top 3 vielversprechendsten Wege im Blick. Wenn ein Weg schlecht aussieht, verwerfen Sie ihn. Wenn ein Weg gut aussieht, behalten Sie ihn und erkunden ihn weiter.

Die Forscher entwickelten einen Algorithmus mit dieser Beam Search-Methode.

Das Ergebnis: Es fand fast sofort einen nahezu perfekten Weg (in etwa 0,1 Sekunden für eine Gruppe von 5 Geräten).
Warum es wichtig ist: Es ist schnell genug für den Einsatz in Echtzeitsystemen, im Gegensatz zur „Brute Force"-Methode, die Stunden oder Tage für die Berechnung desselben Ergebnisses benötigen würde.

Zusammenfassung des „Rezepts"

Der Artikel schließt mit einem einfachen Rezept, wie diese winzigen IoT-Geräte effizient zusammenarbeiten können:

Verwenden Sie ESP-NOW für die Kommunikation, da es die langweiligen Einrichtungsschritte überspringt und für Hin-und-Rück-Reisen am schnellsten ist.
Verwenden Sie den Beam Search-Algorithmus, um automatisch zu entscheiden, wo das KI-Modell geteilt wird. Dies stellt sicher, dass der winzige Roboter und der große Roboter die Arbeit auf die zeitlich effizienteste mögliche Weise teilen.

Durch die Kombination der richtigen „Rufmethode" (ESP-NOW) mit einem intelligenten „Planer" (Beam Search) gelang es ihnen, diese winzigen, energieeffizienten Geräte komplexe KI-Rätsel viel schneller als zuvor lösen zu lassen, ohne die Hardware upgraden zu müssen.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Optimierung der Latenz bei Split Learning in TinyML-basierten IoT-Systemen

Problemstellung

Die rasante Entwicklung der Künstlichen Intelligenz stößt beim Einsatz von Deep-Learning-Inferenz (DL) auf ultra-leistungsschwachen, ressourcenbeschränkten Edge- und IoT-Geräten an ein signifikantes Engpassproblem. Zwar bietet TinyML durch leichtgewichtige Modelle eine Lösung, doch viele Anwendungen übersteigen nach wie vor die Speicher- und Verarbeitungskapazitäten einzelner Mikrocontroller. Split Learning (SL) adressiert dies durch die Aufteilung eines Modells über mehrere Geräte, wobei frühe Schichten auf dem Sensor ausgeführt und der Rest auf ein Begleitgerät ausgelagert wird. Die Leistungsfähigkeit von SL in diesem Kontext bleibt jedoch weitgehend unerforscht. Insbesondere fehlt es an empirischen Belegen hinsichtlich:

der End-to-End-Inferenzlatenz von SL auf beschränkter Hardware unter realistischen Low-Power-Drahtlosprotokollen,
des Einflusses verschiedener drahtloser Kommunikationsprotokolle (WiFi, ESP-NOW, BLE) auf die Split-Latenz, einschließlich Netzwerkeinrichtung, Übertragung interner Aktivierungen und Vorhersagerückmeldung,
der optimalen Auswahl von „Split-Punkten" (Stellen, an denen das Modell geteilt wird), um die Gesamtlatenz unter Berücksichtigung sowohl von Rechen- als auch von Kommunikationsaufwänden zu minimieren.

Bestehende Studien konzentrierten sich weitgehend auf Smartphones oder Single-Board-Computer, wobei sie oft ideale Übertragungsbedingungen annahmen oder heuristische Methoden zur Split-Auswahl verwendeten, die protokollspezifische Aufwände wie Paketverluste oder Verbindungsaushandlungen nicht berücksichtigen.

Methodik

Die Autoren schlagen einen experimentellen Rahmen und einen Optimierungsalgorithmus vor, um diese Lücken zu schließen.

1. Experimenteller Testaufbau

Hardware: Das System verwendet ESP32-S3-WROOM-1-Boards (240 MHz, 16 MB Flash) als IoT-Knoten und einen Desktop-PC (Intel Core i9-14900) als Edge-Server.
Modelle: Zwei Convolutional Neural Networks (CNNs) wurden verwendet: MobileNet-V2 (leichtgewichtig) und ResNet50 (größer).
Rahmenwerk: Die Modelle wurden auf dem Edge-Server mit TensorFlow Lite (TFLite) vorbereitet, partitioniert und quantisiert. Die Firmware wurde über Over-the-Air (OTA)-Updates auf die IoT-Geräte bereitgestellt.
Protokollvergleich: Vier drahtlose Kommunikationsprotokolle wurden für die Übertragung interner Aktivierungen verglichen:
- UDP (über WiFi)
- TCP (über WiFi)
- ESP-NOW (Low-Power, Peer-to-Peer)
- BLE (Bluetooth Low Energy)
Messung: Die Latenz wurde mit hochauflösenden Timern auf dem ESP32-S3 gemessen, wobei Round-Trip-Time (RTT)-Komponenten erfasst wurden, einschließlich Protokoll-Einrichtung, Modellladung, Tensor-Allokation, Inferenz, Pufferung, Übertragung und Rückmeldung.

2. Optimierungsrahmen

Der Artikel formuliert die Auswahl des Split-Punkts als Optimierungsproblem zur Minimierung der gesamten Inferenzlatenz ( $T_{inference}$ ), definiert als Summe der gerätelokalen Verarbeitungszeit ( $T_d$ ) und der Übertragungslatenz ( $T_{tr}$ ).

Übertragungsmodell: Die Übertragungslatenz berücksichtigt Paketgröße, Maximum Transmission Unit (MTU)-Grenzen, Ausbreitungsverzögerung und Paketverlustrate.
Suchalgorithmen: Zur Lösung des Optimierungsproblems (Finden des optimalen Satzes von Split-Punkten $s^*$ $s^{*}$ ) vergleichen die Autoren vier Strategien:
1. Brute Force: Exhaustive Suche (bei großem $L$ rechnerisch nicht durchführbar).
2. Random-Fit: Zufällige Auswahl von Split-Punkten.
3. First-Fit: Wählt den ersten Split-Punkt aus, der eine Latenzschwelle erfüllt.
4. Greedy Search: Wählt sequenziell Split-Punkte aus, um die unmittelbare Segmentkosten zu minimieren.
5. Beam Search: Ein neuartiger Ansatz für diesen Kontext, der in jedem Schritt nur die top- $B$ vielversprechendsten Teillösungen erweitert und dabei Suchgenauigkeit mit Recheneffizienz ausbalanciert.

Wichtige Ergebnisse

Protokollleistung

ESP-NOW: Erzielte die beste Gesamtround-Trip-Time (RTT) von 3,6 Sekunden im Zwei-Geräte-Setup. Trotz einer kleineren Paketgrenze (250 Bytes) im Vergleich zu UDP/TCP führte das Fehlen von Verbindungsaushandlungsaufwand und ein effizienter MAC-Schicht-Broadcast-Mechanismus zur niedrigsten Gesamtlatenz.
UDP: Bietete die niedrigste rohe Übertragungslatenz (z. B. 1,4 ms für kleine Nutzdaten) aufgrund eines großen MTU (1472 Bytes) und fehlender Bestätigungs-Overheads. Die Protokoll-Einrichtungszeiten waren jedoch signifikant (>2 Sekunden).
TCP: Litt unter hoher Latenz durch Verbindungsaufbau und Wiederholungsübertragungs-Overheads, insbesondere beim Umgang mit großen internen Aktivierungstensor (z. B. >100 Pakete), was zu Pufferstaus auf dem ESP32 führte.
BLE: Resultierte in der höchsten Latenz (10,4 s RTT) aufgrund übermäßiger Fragmentierung (512-Byte-MTU) und hoher Einrichtungs-/Rückmeldungsverzögerungen.

Split-Punkt-Optimierung

Algorithmuseffizienz: Der Beam Search-Algorithmus zeigte eine nahezu optimale Latenzleistung, die mit Brute Force vergleichbar war, jedoch mit drastisch reduzierter Verarbeitungszeit. Für ein Szenario mit 5 Geräten benötigte Beam Search nur 0,1 Sekunden Verarbeitungszeit, während Brute Force exponentiell länger dauern würde (projiziert ~7857 Sekunden für 6 Geräte).
Latenzreduktion: Beam Search reduzierte die Latenz bei 6 Geräten um über 600 % im Vergleich zu Random-Fit.
Modellspezifika:
- Für MobileNet-V2 erreichte Beam Search konsistent die niedrigste Latenz über verschiedene Geräteanzahlen hinweg.
- Für ResNet50 blieb Beam Search zwar die effizienteste Methode, doch bei höheren Geräteanzahlen wurden Latenzschwankungen beobachtet, da einige Knoten nicht in der Lage waren, bestimmte Modulsegmente auszuführen.

Spezifische Erkenntnisse zu Split-Punkten

Manuelle Benchmarks identifizierten die Schicht block_16_project_BN in MobileNet-V2 als einen hochwirksamen Split-Punkt bei Verwendung von ESP-NOW, der die Rechenlast und die Datentransfergröße effektiv ausbalanciert.

Bedeutung und Behauptungen

Der Artikel behauptet, den ersten experimentellen Latenz-Benchmark für TinyML-basiertes Split Learning auf Low-Power-ESP32-S3-Boards zu liefern. Seine Hauptbeiträge sind:

Empirische Belege: Er schließt eine Lücke in der Literatur durch die Bereitstellung realweltlicher Messungen der SL-Latenz über verschiedene drahtlose Protokolle hinweg und geht damit über theoretische Simulationen oder smartphonebasierte Studien hinaus.
Protokollauswahl: Er stellt fest, dass UDP zwar eine niedrige Übertragungslatenz bietet, ESP-NOW jedoch das überlegene Protokoll für die End-to-End-SL-RTT in eingeschränkten IoT-Umgebungen ist, aufgrund vernachlässigbarem Einrichtungsaufwand.
Optimierungsalgorithmus: Er führt einen auf Beam Search basierenden Algorithmus für die automatische Split-Punkt-Auswahl ein und validiert diesen. Die Autoren behaupten, dass diese Methode eine praktische, skalierbare Lösung für Echtzeit-Einsätze bietet und nahezu optimale Latenz bei minimalem Rechenaufwand liefert, im Gegensatz zu exhaustiven Suchmethoden.
Reproduzierbarkeit: Der Quellcode und das experimentelle Setup sind öffentlich verfügbar, um als reproduzierbare Basislinie für zukünftige Forschung in TinyML und Split Learning zu dienen.

Die Autoren schließen, dass sich ihre aktuelle Arbeit zwar auf statische Split-Punkte und feste Protokolle konzentriert, zukünftige Arbeiten jedoch darauf abzielen, ein dynamisches Framework zu entwickeln, das Split-Punkte, Chunk-Größen und Protokolle in Echtzeit basierend auf Netzwerkbedingungen und Geräteressourcen anpasst.

Optimizing Split Learning Latency in TinyML-Based IoT Systems