Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Il paper introduce Stretch-and-Squeeze (SnS), un framework privo di gradienti che, formulando le trasformazioni come problemi di ottimizzazione bi-obiettivo, rivela sistematicamente lo spettro nascosto di invarianze e vulnerabilità avversarie nei sistemi visivi biologici e artificiali, dimostrando come le trasformazioni invarianti ottimali varino a seconda del livello della rappresentazione e influenzino diversamente l'interpretabilità umana a seconda dell'architettura del modello.

Lorenzo Tausani, Paolo Muratore, Morgan B. Talbot, Giacomo Amerio, Gabriel Kreiman, Davide Zoccolan

Pubblicato 2026-02-17
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cervello digitale (una rete neurale artificiale) che guarda le immagini. Il suo compito è riconoscere gli oggetti: "Quello è un gatto", "Quello è una tazza". Ma come fa? Cosa vede esattamente?

Fino a poco tempo fa, gli scienziati cercavano di capire questo "cervello" chiedendogli: "Qual è l'immagine perfetta che ti fa dire 'tazza'?". Rispondevano con un'immagine strana, quasi un'astrazione, che attivava al massimo quel neurone. Era come chiedere a un musicista: "Qual è la nota perfetta che ti fa emozionare?".

Il problema è che questa domanda è troppo limitata. Un vero sistema visivo (sia umano che artificiale) non si blocca su una sola nota perfetta. Se vedi una tazza di lato, rovesciata, o con un'ombra diversa, la riconosci lo stesso. Questa capacità di riconoscere l'oggetto anche quando cambia è chiamata invarianza.

Il Nuovo Metodo: "Stretch-and-Squeeze" (Allunga e Stringi)

Gli autori di questo studio hanno creato un nuovo strumento chiamato SnS (Stretch-and-Squeeze). Immaginalo come un giocattolo di gomma magico o un pallone elastico.

Ecco come funziona, usando una metafora culinaria:

Immagina di avere una ricetta perfetta per una torta (l'immagine di riferimento che il cervello digitale ama).

  1. L'obiettivo: Vuoi scoprire fino a che punto puoi modificare gli ingredienti (cambiare la ricetta) senza che il sapore della torta cambi (il cervello continui a dire "è una torta").
  2. L'azione "Stretch" (Allunga): Prendi la ricetta e inizia a cambiare gli ingredienti in modo esagerato. Aggiungi chili di zucchero, togli le uova, cambia la farina.
  3. L'azione "Squeeze" (Stringi): Mentre fai queste modifiche folli, devi assicurarti che il risultato finale sia ancora una torta perfetta per il tuo cervello digitale. Se il sapore cambia troppo, hai fallito.

Il metodo SnS fa esattamente questo: prende un'immagine, la "stira" e la "deforma" in modi incredibili (cambiando luci, texture, pose), ma stringe la trasformazione fino a quando l'immagine deformata fa ancora scattare lo stesso identico segnale nel cervello digitale.

Cosa hanno scoperto?

Usando questo metodo su computer molto potenti (come ResNet50), hanno fatto scoperte affascinanti:

  1. Non è solo una rotazione: Pensavamo che il cervello digitale fosse invariante solo a cose semplici come ruotare un oggetto o spostarlo. Invece, SnS ha scoperto che questi computer possono tollerare cambiamenti molto più strani e profondi di quanto pensassimo. Possono riconoscere un oggetto anche se ne cambiano completamente la texture o la posizione in modo molto radicale.
  2. Il livello conta:
    • Se modifichi l'immagine all'inizio (livello basso), il computer tollera cambiamenti di luminosità e contrasto.
    • Se modifichi l'immagine a metà strada, tollera cambiamenti di texture (es. da liscio a ruvido).
    • Se modifichi l'immagine alla fine (livello alto), tollera cambiamenti di forma e posizione (es. una tazza vista di profilo).
  3. I "Robusti" vs. I "Normali": Hanno confrontato due tipi di computer: quelli "normali" e quelli addestrati per essere robusti (cioè, che non si confondono facilmente con immagini modificate per ingannarli).
    • Sorprendentemente: I computer "robusti" sembrano più simili agli umani quando guardano le immagini base. Ma quando si tratta di riconoscere oggetti in situazioni molto deformate (livelli alti), i computer "robusti" diventano meno comprensibili per gli umani rispetto ai computer normali.
    • È come se i computer "robusti" avessero sviluppato un modo di vedere il mondo che è molto sicuro, ma che diventa un po' "alieno" quando le cose diventano troppo strane, mentre i computer normali diventano più simili a noi man mano che le cose si complicano.

Perché è importante?

Questo metodo è rivoluzionario per due motivi:

  • Non serve la "ricetta" interna: Funziona anche se non hai accesso ai "cervelli" interni del computer (è "gradient-free"). È come poter capire come funziona un motore nero senza smontarlo, solo osservando come reagisce quando lo spingi e lo tiri.
  • Per la scienza del cervello umano: Gli scienziati che studiano i neuroni degli animali (o umani) spesso possono registrare l'attività solo di pochi neuroni alla volta. SnS funziona anche con pochissimi neuroni a disposizione. Questo significa che potremo usare questo metodo per capire come funziona la vista nei nostri occhi e nei nostri cervelli, scoprendo quali trasformazioni del mondo reale il nostro cervello tollera per riconoscere gli oggetti.

In sintesi

Il paper ci dice che per capire come "vedono" le macchine (e noi), non basta guardare l'immagine perfetta che le eccita. Dobbiamo spingerle fino al limite, deformando le immagini in modi assurdi, per vedere fino a che punto il loro riconoscimento resiste. È come testare la solidità di un ponte non solo guardandolo, ma facendoci passare sopra camion pesanti, vento forte e terremoti per vedere quanto si piega prima di crollare.

Il risultato? Abbiamo scoperto che i computer "robusti" sono molto bravi, ma a volte il loro modo di vedere le cose è più strano di quanto pensassimo, e questo ci aiuta a costruire macchine che vedono il mondo più come noi.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →