VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Il paper introduce VOILA, un benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di comprendere relazioni percettive e di ragionamento analogico, rivelando che le attuali architetture faticano significativamente in questi compiti rispetto alle prestazioni umane, sebbene strategie di prompting a più passaggi possano migliorare i risultati.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

Pubblicato 2026-02-26
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una scuola di "intelligenza visiva" dove gli studenti sono i nuovi modelli di intelligenza artificiale (chiamati MLLM, o Modelli Linguistici Multimodali). Fino a poco tempo fa, questi studenti erano bravi a descrivere le foto ("C'è un gatto che dorme") o a rispondere a domande semplici ("Il gatto è bianco?").

Ma il paper VOILA si chiede: "Sanno davvero ragionare? Sanno capire le relazioni nascoste tra le immagini?"

1. Il Problema: L'Intelligenza "Finta"

Fino ad ora, per testare l'intelligenza delle macchine, si usavano quiz a scelta multipla (tipo: "Qual è la risposta giusta tra A, B o C?"). È come se chiedessimo a uno studente di indovinare la risposta guardando le opzioni. Potrebbe indovinare per caso o riconoscere un pattern superficiale senza capire davvero la logica.

Gli autori dicono: "Basta con i quiz a scelta multipla! Vogliamo vedere se riescono a creare qualcosa di nuovo."

2. La Soluzione: Il Gioco del "Completa la Storia" (VOILA)

Hanno creato un nuovo banco di prova chiamato VOILA. Immagina un gioco di analogie visive, simile a un puzzle logico:

  • Il Setup: Ti mostrano tre immagini.
    • Immagine 1: Due cani che giocano a calcio.
    • Immagine 2: Due cani che leggono un libro.
    • Immagine 3: Quattro gatti che giocano a calcio.
  • La Domanda: "Se il passaggio da 1 a 2 è 'da calcio a lettura', cosa succede ai gatti nell'immagine 4?"
  • La Sfida: L'IA non deve solo scegliere una risposta tra quattro. Deve disegnare lei stessa l'immagine 4 (quattro gatti che leggono un libro) e spiegare perché.

È come chiedere a un bambino: "Se trasformo la mela in una pera, cosa succede alla banana?". L'IA deve capire la regola (cambiare il frutto) e applicarla a un nuovo oggetto.

3. Le Due Versioni del Gioco: Con e Senza "Distrazioni"

Per rendere il test più realistico, hanno creato due versioni:

  • VOILA-ND (Senza Distrazioni): È come un puzzle pulito. Le regole sono chiare.
  • VOILA-WD (Con Distrazioni): Qui mettono dei "falsi amici". Immagina che nell'immagine ci siano anche degli oggetti di sfondo che non c'entrano nulla (es. un pallone che rotola via). L'IA deve ignorare il pallone e concentrarsi solo sui cani e sull'azione. È come cercare di ascoltare una conversazione in una stanza rumorosa: serve un orecchio molto attento!

4. Cosa è Succeso? (I Risultati Sorprendenti)

Hanno messo alla prova i migliori "studenti" IA (come GPT-4o, LLaMa, ecc.) e li hanno confrontati con esseri umani reali. I risultati sono stati scioccanti:

  • Gli Umani: Hanno fatto un punteggio altissimo (circa 70%). Per noi umani, capire che "due cani che leggono" è la logica giusta per i gatti è quasi istintivo.
  • Le IA: Hanno fatto una figura tremenda.
    • Nel caso più semplice, il migliore (GPT-4o) ha fatto solo il 29%.
    • Nel caso con le distrazioni, il migliore (LLaMa) ha fatto solo il 13%.

L'analogia: È come se avessimo un genio che sa descrivere perfettamente un quadro (sa dire "c'è un cane"), ma se gli chiediamo di dipingere un quadro nuovo basandosi su una regola logica, sbaglia tutto e finisce per disegnare un gatto che vola.

5. Perché falliscono?

Il paper ha scoperto che le IA hanno tre grandi problemi:

  1. Non vedono le relazioni: Capiscono i singoli oggetti, ma non capiscono come si collegano tra loro (es. "il numero raddoppia" o "l'azione cambia").
  2. Si confondono con le distrazioni: Se c'è un dettaglio irrilevante, si perdono e pensano che sia importante.
  3. Faticano a "creare": Anche se capiscono la regola, quando devono generare l'immagine finale, spesso sbagliano i dettagli (es. disegnano 3 gatti invece di 4).

6. C'è una Speranza? (Il Trucco del "Passo dopo Passo")

Gli autori hanno scoperto un trucco: se invece di chiedere alla risposta immediata, si chiede all'IA di ragionare passo dopo passo (prima descrivi, poi trova la regola, poi applicala, poi disegna), le prestazioni migliorano.

È come se dicessimo a uno studente: "Non darmi solo la risposta finale. Dimmi prima cosa vedi, poi dimmi cosa cambia, e infine disegna". Questo metodo (chiamato Least-to-Most) aiuta l'IA a non andare nel panico, anche se non la rende perfetta.

In Conclusione

Il paper VOILA ci dice una cosa importante: Le Intelligenze Artificiali sono diventate bravissime a "guardare" e "parlare", ma sono ancora molto indietro nel "pensare" e nel "ragionare" come gli umani.

Hanno bisogno di imparare a vedere le connessioni nascoste e a ignorare il rumore di fondo, proprio come facciamo noi quando risolviamo un problema complesso. VOILA è il nuovo campo di allenamento per insegnar loro a farlo.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →