A Study on Inference Latency for Vision Transformers on Mobile Devices

Questo studio analizza quantitativamente la latenza di inferenza dei Vision Transformers su dispositivi mobili confrontandoli con le CNN, sviluppando un dataset predittivo che permette di stimare con precisione le prestazioni di nuove architetture ViT su diverse piattaforme.

Zhuojin Li, Marco Paolieri, Leana Golubchik

Pubblicato 2026-02-20
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

📱 Il Grande Esperimento: Le "Intelligenze" sui Telefoni

Immagina che il tuo smartphone sia come una cucina di un ristorante.
Per anni, i cuochi (gli sviluppatori di app) hanno usato una ricetta tradizionale chiamata CNN (Reti Neurali Convoluzionali). È una ricetta collaudata, veloce e che funziona bene anche con fornelli piccoli (il processore del telefono).

Poi, è arrivata una nuova ricetta rivoluzionaria chiamata ViT (Vision Transformers). È come se avessimo scoperto un modo magico di cucinare che rende il cibo (le immagini) molto più gustoso e preciso. Tuttavia, questa nuova ricetta richiede di mescolare tutti gli ingredienti insieme in una volta sola, invece di lavorarli uno per uno. Questo la rende molto più complessa e rischia di far saltare il fornello del telefono!

Gli autori di questo studio (Zhuojin Li, Marco Paolieri e Leana Golubchik) si sono chiesti: "Questa nuova ricetta magica funziona davvero sui nostri telefoni, o è troppo pesante?"

Ecco cosa hanno scoperto, spiegato con analogie semplici:

1. La Corsa di Velocità: Il Vecchio vs. Il Nuovo

Hanno messo a confronto 190 nuove ricette (ViT) contro 102 vecchie ricette (CNN).

  • Il risultato: Se guardi solo la "teoria" (quante operazioni matematiche servono, chiamate FLOPs), le due ricette sembrano simili. Ma nella realtà, quando le fai girare sul telefono, le ViT sono più lente.
  • L'analogia: È come se due corse avessero la stessa distanza. La CNN corre su una pista d'asfalto liscia. La ViT corre su una pista piena di buche e ostacoli. Anche se la ViT è più potente, impiega più tempo a finire la gara perché deve fare più pause per gestire gli ostacoli.

2. Il Collo di Bottiglia: La Memoria è la Chiave

Hanno scoperto che il problema principale non è la "forza" del processore (il motore), ma la memoria (il magazzino).

  • L'analogia: Immagina che la CNN sia un camioncino che porta pochi pacchi alla volta, ma li scarica velocemente. La ViT, invece, è un gigantesco treno merci che deve portare tutti i pacchi insieme.
  • Su un telefono, il "magazzino" (la RAM) è piccolo. La ViT deve continuamente spostare i pacchi da un ripiano all'altro per poterli leggere. Questo movimento (chiamato accesso alla memoria) è lento e consuma energia.
  • Scoperta: Se provi ad accelerare il motore (il processore), il treno non va più veloce perché è bloccato nel magazzino. Se invece allarghi il magazzino (aumenti la larghezza di banda della memoria), il treno accelera moltissimo!

3. I "Blocchi" della Costruzione: Come sono fatti i ViT

Per capire meglio, hanno costruito 1000 "ViT finti" (sintetici) usando mattoncini diversi, proprio come i bambini con i LEGO.

  • Hanno scoperto che alcuni mattoncini sono più veloci di altri a seconda di come sono impilati.
  • Il trucco del formato: Hanno notato che se i mattoncini sono impilati in un certo modo (chiamato formato di memoria), il cuoco (il processore) li prende molto più velocemente. È come se avessi gli ingredienti già tagliati e pronti nel cassetto giusto, invece di doverli cercare in tutto il frigo.
  • Il problema del "GELU": C'è un ingrediente speciale chiamato GELU (una funzione matematica). Il tempo per cucinarlo cambia a seconda di quanto è "caldo" l'ingrediente (il valore numerico). A volte è velocissimo, a volte è lentissimo. Questo rende impossibile prevedere il tempo di cottura solo guardando la ricetta scritta sulla carta.

4. La Previsione: La Sfera di Cristallo

La parte più bella dello studio è che hanno creato una palla di cristallo (un modello di intelligenza artificiale) capace di prevedere quanto tempo impiegherà una nuova ricetta ViT prima ancora di provarla sul telefono.

  • Come funziona? Hanno insegnato alla palla di cristallo guardando i tempi di cottura di 900 ricette finte.
  • Il risultato: La palla di cristallo è diventata bravissima! Riesce a dire: "Se costruisci questa nuova app, impiegherà 50 millisecondi".
  • Perché è utile?
    1. Per i progettisti (NAS): Invece di costruire 1000 app diverse e provarle tutte (che richiederebbe giorni), possono usare la palla di cristallo per scegliere subito quella che sarà veloce.
    2. Per la collaborazione (Split Inference): A volte il telefono è troppo stanco per fare tutto il lavoro. La palla di cristallo aiuta a decidere: "Faccio io questa parte veloce, e mando al cloud quella parte lenta".

5. Le Sorprese dei "Motori" (Framework)

Hanno notato che due diversi "motori" per far girare le app (PyTorch e TensorFlow) si comportano in modo diverso.

  • L'analogia: È come se avessi due auto diverse (una Ferrari e una Lamborghini) che usano lo stesso carburante. Su una strada (il telefono), la Ferrari potrebbe essere più veloce in rettilineo, ma la Lamborghini potrebbe essere più agile nelle curve.
  • Hanno scoperto che a volte un motore è veloce, ma se cambi un piccolo dettaglio (come la precisione dei numeri, o quantizzazione), diventa lento. È una sorpresa che solo testando sul vivo si può scoprire.

🏁 Conclusione: Cosa ci insegnano?

In sintesi, questo studio ci dice che:

  1. Le nuove "intelligenze" (ViT) sono potenti ma affamate di memoria.
  2. Non basta guardare la teoria; bisogna testare sul telefono reale, perché i dettagli contano (come il formato dei dati o il tipo di processore).
  3. Abbiamo creato una mappa e una bussola (il dataset e i predittori) che permettono agli sviluppatori di costruire app intelligenti che non bloccano il nostro telefono, rendendo la realtà aumentata e l'analisi video possibili anche sui dispositivi tascabili.

È come se avessero scritto il manuale di istruzioni definitivo per costruire "cervelli" che corrono veloci anche su scarpe da ginnastica, invece che su scarpe da corsa da laboratorio! 🏃‍♂️📱✨

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →