EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Il paper introduce EgoCampus, un nuovo dataset e un modello di deep learning (EgoCampusNet) per prevedere lo sguardo di pedoni in ambienti esterni, basandosi su registrazioni egocentriche raccolte con occhiali Meta Project Aria in un campus universitario.

Ronan John, Aditya Kesari, Vincenzo DiMatteo, Kristin Dana

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di camminare per un campus universitario. Il tuo cervello non guarda tutto allo stesso modo: a volte fissi un albero, a volte un cartello, a volte il volto di un amico che incroci. Ma dove guardi esattamente e perché?

Questo è il cuore del progetto EgoCampus, presentato da ricercatori della Rutgers University. Ecco una spiegazione semplice di cosa hanno fatto, usando qualche metafora per rendere il tutto più chiaro.

1. Il Problema: La "Cecità" dei Robot

Immagina di voler insegnare a un robot a camminare tra la gente senza urtarla. Se il robot ha solo una telecamera, vede tutto, ma non sa cosa è importante. È come avere un libro pieno di parole ma non sapere quali sono le frasi chiave.
Fino a poco tempo fa, gli scienziati studiavano dove guardano le persone solo in situazioni controllate (come fissare uno schermo in un laboratorio) o in ambienti chiusi (come cucinare in cucina). Ma il mondo reale è caotico, esterno e in movimento. Mancava una "mappa" di come gli esseri umani guardano mentre camminano davvero per strada.

2. La Soluzione: Gli Occhiali Magici (EgoCampus)

Per risolvere questo, i ricercatori hanno creato EgoCampus, che è un po' come un diario visivo gigante.

  • Come l'hanno fatto: Hanno dato a 82 persone degli occhiali speciali (i Project Aria di Meta) che sembrano normali, ma hanno telecamere, sensori di movimento e, soprattutto, un tracciatore oculare (che sa esattamente dove puntano i tuoi occhi).
  • Cosa hanno registrato: Hanno fatto camminare queste persone per 25 percorsi diversi nel campus (circa 6 km in totale). Hanno registrato 32 ore di video, 82 persone diverse e, cosa fondamentale, dove guardavano in ogni singolo istante.
  • L'analogia: È come se avessero registrato non solo il film della loro passeggiata, ma avessero anche aggiunto un "puntatore laser" invisibile che mostra esattamente dove la loro attenzione si è posata.

3. Il Cervello del Robot: EgoCampusNet

Avere i dati è utile, ma serve qualcuno che li capisca. I ricercatori hanno creato un'intelligenza artificiale chiamata EgoCampusNet.

  • Come funziona: Immagina che questo modello sia un detective.
    • Guarda il video (cosa sta succedendo intorno?).
    • Guarda l'immagine attuale (cosa c'è proprio davanti?).
    • Unisce queste due informazioni per indovinare: "Se fossi io a camminare qui, dove guarderei?".
  • La particolarità: A differenza di altri modelli che guardano solo l'immagine statica, questo detective guarda anche il movimento (il video). Capisce che se sto camminando veloce, probabilmente guardo avanti per non inciampare, mentre se rallento, potrei guardare un negozio.

4. Cosa hanno scoperto? (Le Sorprese)

Analizzando i dati, hanno notato cose interessanti:

  • Il "Bias del Centro": Quando camminiamo, tendiamo a guardare al centro dell'immagine (dove andiamo). È come se il nostro cervello dicesse: "Focalizziamoci sulla strada". Molti modelli si affidano troppo a questa abitudine.
  • I Tracciatori: Quando le persone girano la testa velocemente (perché sentono un rumore o vedono qualcosa), guardano quasi sempre punti di riferimento (edifici, alberi) o segnali di navigazione (altre persone, incroci). Non guardano il cielo o il terreno, ma ciò che serve per orientarsi.
  • La sfida: I modelli esistenti, se provati su questi dati senza essere "addestrati" specificamente, falliscono. È come dare a un pilota di Formula 1 un'auto da rally: non sa come comportarsi in quel nuovo ambiente. Il modello creato dai ricercatori (ECN) è stato addestrato proprio su questi dati e funziona molto meglio.

5. Perché è importante?

Questo lavoro è come fornire una mappa del tesoro per il futuro della robotica e dell'intelligenza artificiale.

  • Robot più sicuri: Se un robot sa dove guardano le persone, può prevedere i loro movimenti e camminare in modo più naturale e sicuro tra di noi.
  • Realtà aumentata: Potremmo avere occhiali che mostrano informazioni solo su ciò che stiamo guardando davvero, senza distrarci.
  • Comprensione umana: Ci aiuta a capire meglio come funziona l'attenzione umana in un mondo reale e caotico.

In sintesi

I ricercatori hanno creato un enorme database di "occhi umani" mentre camminano per strada e hanno costruito un cervello artificiale che impara da questi occhi.
È come se avessimo insegnato a un robot a "pensare" come un pedone, non solo a vedere come una telecamera. Questo ci avvicina al giorno in cui robot e umani potranno condividere gli spazi pubblici in armonia, capendosi a vicenda.

Il dataset e il codice saranno presto disponibili per tutti, come una "palestra" aperta per chiunque voglia allenare i propri robot a camminare nel mondo reale.