Autores originais: Zied Jenhani, Mounir Bensalem, Jasenka Dizdarević, Admela Jukan

Publicado 2026-05-07

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Zied Jenhani, Mounir Bensalem, Jasenka Dizdarević, Admela Jukan

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô muito inteligente, mas minúsculo (como uma câmera inteligente em um campainha) que precisa resolver um quebra-cabeça complexo, como reconhecer um rosto. O problema é que este robô é pequeno, tem uma bateria minúscula e um cérebro fraco. Se você pedir que ele resolva todo o quebra-cabeça sozinho, isso levará uma eternidade, ou ele pode ficar sem bateria antes de terminar.

Este artigo explora uma solução inteligente chamada Aprendizado Dividido (Split Learning). Em vez de pedir ao robô minúsculo para fazer tudo, você divide o trabalho pela metade. O robô faz a primeira parte, fácil, do quebra-cabeça, depois grita as "pistas" que encontrou para um robô maior e mais forte próximo (como um alto-falante inteligente ou um servidor local). O robô maior termina a parte difícil do quebra-cabeça e grita a resposta de volta.

Os autores deste artigo quiseram descobrir a forma mais rápida de realizar este jogo de gritar e ouvir usando hardware real de baixo consumo de energia (especificamente placas ESP32-S3, que são microcontroladores baratos e de código aberto).

Aqui está uma análise de suas descobertas usando analogias simples:

1. O Problema do "Grito": Escolher o Protocolo Certo

Quando o robô minúsculo envia suas pistas para o robô grande, ele precisa escolher uma "língua" ou um "método de entrega" para enviar os dados. Os pesquisadores testaram quatro métodos diferentes, como escolher entre diferentes tipos de serviços de correio:

UDP: Como enviar um cartão postal. É muito rápido porque você não espera um recibo, mas se o cartão se perder, você não sabe.
TCP: Como enviar uma carta registrada. É muito confiável (você recebe um recibo), mas leva mais tempo por causa de toda a "burocracia" de "aperto de mão" antes que a carta seja enviada.
BLE (Bluetooth): Como um walkie-talkie lento e tagarela. Conecta-se bem, mas leva muito tempo para configurar a conversa e envia dados em pedaços muito pequenos e fragmentados.
ESP-NOW: Como um walkie-talkie especializado e de alta velocidade que não precisa configurar uma conexão formal primeiro. Ele apenas dispara a mensagem.

O Vencedor: Surpreendentemente, o ESP-NOW foi o mais rápido no geral. Mesmo tendo um limite pequeno de "tamanho do envelope" (não pode carregar grandes pedaços de dados de uma só vez), ele economiza tanto tempo ao pular a configuração formal de conexão que venceu os outros. Ele completou a viagem de ida e volta (enviar pistas e receber uma resposta de volta) em cerca de 3,6 segundos, enquanto o Bluetooth levou mais de 10 segundos.

2. O Problema do "Corte": Onde Dividir o Trabalho?

Os pesquisadores também tiveram que decidir exatamente onde cortar o quebra-cabeça.

Cortar muito cedo: O robô minúsculo faz quase nada, mas precisa enviar uma enorme pilha de pistas para o robô grande. Isso entope a rede.
Cortar muito tarde: O robô minúsculo faz quase tudo, o que leva muito tempo para seu cérebro fraco.

Eles testaram diferentes "pontos de corte" em dois modelos de IA populares (MobileNet-V2 e ResNet50). Eles descobriram que o melhor local para cortar depende do modelo e da rede, mas, em geral, eles queriam encontrar a zona "Cachinhos Dourados" onde o robô minúsculo faz trabalho suficiente sem sobrecarregar a rede.

3. O "Planejador Inteligente": Busca em Feixe (Beam Search)

Encontrar o ponto de corte perfeito é como tentar encontrar a melhor rota através de um labirinto.

Força Bruta: Tentar cada caminho possível. Isso garante a melhor rota, mas leva uma eternidade (dias) para calcular.
Busca Gulosa: Pegar o primeiro caminho que parece bom. É rápido, mas você pode ficar preso em um beco sem saída mais tarde.
Busca em Feixe (O Vencedor): Imagine que você está explorando o labirinto, mas em vez de verificar cada caminho, você mantém apenas o registro dos 3 caminhos mais promissores a qualquer momento. Se um caminho parecer ruim, você o descarta. Se um caminho parecer bom, você o mantém e explora mais.

Os pesquisadores criaram um algoritmo usando este método de Busca em Feixe.

O Resultado: Encontrou uma rota quase perfeita quase instantaneamente (em cerca de 0,1 segundos para um grupo de 5 dispositivos).
Por que importa: É rápido o suficiente para ser usado em sistemas em tempo real, ao contrário do método de "Força Bruta", que levaria horas ou dias para calcular a mesma coisa.

Resumo da "Receita"

O artigo conclui com uma receita simples para fazer esses dispositivos IoT minúsculos trabalharem juntos de forma eficiente:

Use ESP-NOW para comunicação porque ele pula as etapas chatas de configuração e é o mais rápido para viagens de ida e volta.
Use o algoritmo de Busca em Feixe para decidir automaticamente onde dividir o modelo de IA. Isso garante que o robô minúsculo e o robô grande compartilhem o trabalho da maneira mais eficiente em termos de tempo possível.

Ao combinar o "método de grito" certo (ESP-NOW) com um "planejador" inteligente (Busca em Feixe), eles conseguiram fazer com que esses dispositivos minúsculos e de baixo consumo de energia resolvessem quebra-cabeças complexos de IA muito mais rápido do que antes, sem precisar atualizar o hardware.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Otimização da Latência de Aprendizado Dividido em Sistemas IoT Baseados em TinyML

Declaração do Problema

A rápida evolução da Inteligência Artificial enfrenta um gargalo significativo na implantação de inferência de aprendizado profundo (DL) em dispositivos de borda e IoT ultra-baixo consumo e com recursos limitados. Embora o TinyML ofereça uma solução por meio de modelos leves, muitas aplicações ainda excedem as capacidades de memória e processamento de microcontroladores individuais. O Aprendizado Dividido (SL) aborda isso dividindo um modelo entre dispositivos, executando as camadas iniciais no sensor e descarregando o restante para um dispositivo companheiro. No entanto, o desempenho do SL neste contexto permanece pouco explorado. Especificamente, há uma falta de evidências empíricas sobre:

A latência de inferência de ponta a ponta do SL em hardware restrito sob protocolos de comunicação sem fio de baixo consumo realistas.
O impacto de diferentes protocolos de comunicação sem fio (WiFi, ESP-NOW, BLE) na latência dividida, incluindo configuração de rede, transmissão de ativações intermediárias e feedback de previsão.
A seleção ótima de "pontos de divisão" (onde o modelo é dividido) para minimizar a latência total, considerando tanto a sobrecarga de computação quanto a de comunicação.

Estudos existentes focaram amplamente em smartphones ou computadores de placa única, frequentemente assumindo condições de transmissão ideais ou utilizando métodos heurísticos de seleção de divisão que não levam em conta sobrecargas específicas do protocolo, como perda de pacotes ou handshakes de conexão.

Metodologia

Os autores propõem um framework experimental e um algoritmo de otimização para abordar essas lacunas.

1. Ambiente de Teste Experimental

Hardware: O sistema utiliza placas ESP32-S3-WROOM-1 (240 MHz, 16 MB Flash) como nós IoT e um PC Desktop (Intel Core i9-14900) como servidor de borda.
Modelos: Duas Redes Neurais Convolucionais (CNNs) foram utilizadas: MobileNet-V2 (leve) e ResNet50 (maior).
Framework: Os modelos foram preparados, particionados e quantizados usando TensorFlow Lite (TFLite) no servidor de borda. O firmware foi implantado nos dispositivos IoT por meio de atualizações Over-the-Air (OTA).
Comparação de Protocolos: Quatro protocolos de comunicação sem fio foram avaliados para transmissão de ativações intermediárias:
- UDP (sobre WiFi)
- TCP (sobre WiFi)
- ESP-NOW (baixo consumo, ponto a ponto)
- BLE (Bluetooth Low Energy)
Medição: A latência foi medida usando cronômetros de alta resolução no ESP32-S3, capturando componentes de Tempo de Ida e Volta (RTT) incluindo configuração de protocolo, carregamento de modelo, alocação de tensores, inferência, bufferização, transmissão e feedback.

2. Framework de Otimização

O artigo formula a seleção do ponto de divisão como um problema de otimização para minimizar a latência total de inferência ( $T_{inference}$ ), definida como a soma da latência de processamento local do dispositivo ( $T_d$ ) e da latência de transmissão ( $T_{tr}$ ).

Modelo de Transmissão: A latência de transmissão considera o tamanho do pacote, limites da Unidade Máxima de Transmissão (MTU), atraso de propagação e probabilidade de perda de pacotes.
Algoritmos de Busca: Para resolver o problema de otimização (encontrar o conjunto ótimo de pontos de divisão $s^*$ $s^{*}$ ), os autores comparam quatro estratégias:
1. Força Bruta: Busca exaustiva (computacionalmente inviável para grandes $L$ ).
2. Random-Fit: Seleção aleatória de pontos de divisão.
3. First-Fit: Seleciona o primeiro ponto de divisão que satisfaz um limite de latência.
4. Busca Gananciosa: Seleciona sequencialmente pontos de divisão para minimizar o custo imediato do segmento.
5. Busca em Feixe (Beam Search): Uma abordagem nova para este contexto que expande apenas as $B$ soluções parciais mais promissoras em cada etapa, equilibrando a precisão da busca com a eficiência computacional.

Principais Resultados

Desempenho dos Protocolos

ESP-NOW: Alcançou o melhor Tempo de Ida e Volta (RTT) geral de 3,6 segundos na configuração de dois dispositivos. Apesar de um limite de pacote menor (250 bytes) em comparação com UDP/TCP, sua falta de sobrecarga de handshake de conexão e mecanismo eficiente de broadcast na camada MAC resultaram na menor latência total.
UDP: Proporcionou a menor latência de transmissão bruta (por exemplo, 1,4 ms para cargas úteis pequenas) devido a uma MTU grande (1472 bytes) e falta de sobrecarga de confirmação. No entanto, os tempos de configuração do protocolo foram significativos (>2 segundos).
TCP: Sofreu com alta latência devido à configuração de conexão e sobrecargas de retransmissão, particularmente ao lidar com tensores grandes de ativação intermediária (por exemplo, >100 pacotes), levando a paradas de buffer no ESP32.
BLE: Resultou na maior latência (10,4 s RTT) devido à fragmentação excessiva (MTU de 512 bytes) e altos atrasos de configuração/feedback.

Otimização do Ponto de Divisão

Eficiência do Algoritmo: O algoritmo de Busca em Feixe (Beam Search) demonstrou desempenho de latência quase ótimo, comparável à Força Bruta, mas com tempo de processamento drasticamente reduzido. Para um cenário com 5 dispositivos, a Busca em Feixe exigiu apenas 0,1 segundos de tempo de processamento, enquanto a Força Bruta levaria exponencialmente mais tempo (projetado ~7857 segundos para 6 dispositivos).
Redução de Latência: A Busca em Feixe reduziu a latência em mais de 600% em comparação com o Random-Fit para 6 dispositivos.
Especificidades do Modelo:
- Para MobileNet-V2, a Busca em Feixe alcançou consistentemente a menor latência em diferentes contagens de dispositivos.
- Para ResNet50, embora a Busca em Feixe tenha permanecido a mais eficiente, flutuações de latência foram observadas em contagens de dispositivos mais altas devido a alguns nós não terem capacidade para executar segmentos específicos do modelo.

Descobertas Específicas sobre Pontos de Divisão

A avaliação manual identificou a camada block_16_project_BN no MobileNet-V2 como um ponto de divisão altamente eficaz ao usar ESP-NOW, equilibrando efetivamente a carga computacional e o tamanho da transmissão de dados.

Significado e Alegações

O artigo alega fornecer o primeiro benchmark experimental de latência de Aprendizado Dividido baseado em TinyML em placas ESP32-S3 de baixo consumo. Suas principais contribuições são:

Evidência Empírica: Preenche uma lacuna na literatura fornecendo medições do mundo real da latência do SL em diferentes protocolos sem fio, indo além de simulações teóricas ou estudos baseados em smartphones.
Seleção de Protocolo: Estabelece que, embora o UDP ofereça baixa latência de transmissão, o ESP-NOW é o protocolo superior para RTT de SL de ponta a ponta em ambientes IoT restritos devido à sobrecarga de configuração negligenciável.
Algoritmo de Otimização: Introduz e valida um algoritmo baseado em Busca em Feixe para seleção automática de pontos de divisão. Os autores alegam que este método oferece uma solução prática e escalável para implantações em tempo real, proporcionando latência quase ótima com custo computacional mínimo, ao contrário de métodos de busca exaustiva.
Reprodutibilidade: O código-fonte e a configuração experimental estão disponíveis publicamente para servir como uma base reproduzível para pesquisas futuras em TinyML e Aprendizado Dividido.

Os autores concluem que, embora seu trabalho atual se concentre em pontos de divisão estáticos e protocolos fixos, trabalhos futuros visam desenvolver um framework dinâmico que adapte pontos de divisão, tamanhos de fragmentos e protocolos em tempo real com base nas condições de rede e recursos do dispositivo.

Optimizing Split Learning Latency in TinyML-Based IoT Systems