Perfect score on IPhO 2025 theory by Gemini agent

Questo studio riporta che un agente basato su Gemini 3.1 Pro Preview ha ottenuto il punteggio perfetto in tutte e cinque le prove sulla teoria dell'IPhO 2025, sebbene i risultati possano essere influenzati da una possibile contaminazione dei dati dovuta al fatto che il modello è stato rilasciato dopo la competizione.

Yichen Huang

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa di questo documento, pensata per chiunque, anche senza un background scientifico.

Immagina l'Olimpiade Internazionale di Fisica (IPhO) come la "Coppa del Mondo" per i giovani geni della fisica. È una gara durissima dove i migliori studenti di tutto il mondo affrontano problemi che sembrano usciti da un film di fantascienza: richiedono di ragionare su come si muovono le stelle, come funziona l'elettricità o come si comportano i gas, tutto in poche ore.

Fino a poco tempo fa, anche i computer più intelligenti (le Intelligenze Artificiali) faticavano a superare l'oro in queste gare. Arrivavano quasi, ma commettevano errori di calcolo o di logica.

Questo documento racconta la storia di un esperimento condotto da Yichen Huang, uno studente americano, che ha creato un "super-agente" basato su un'intelligenza artificiale chiamata Gemini 3.1 Pro. Il risultato? Il computer ha preso il 100% dei punti, ogni singola volta, su tutti i problemi teorici dell'edizione 2025.

Ecco come è successo, spiegato con delle metafore:

1. Il Problema: L'AI che "allucina"

Pensa all'AI come a uno studente geniale ma un po' distratto. Se gli dai un problema di fisica, spesso capisce la teoria, ma quando deve misurare una linea su un disegno o fare un calcolo matematico, a volte sbaglia il segno (mette un meno invece di un più) o legge male un grafico. È come se avesse gli occhiali sporchi o la mano che trema mentre scrive.

2. La Soluzione: Il "Team di Revisione"

L'autore non ha chiesto all'AI di risolvere il problema una volta sola. Ha creato un sistema a più livelli, simile a una redazione giornalistica o a un laboratorio scientifico:

  • Il "Cervello" (Gemini 3.1 Pro): È il modello base, molto potente.
  • La "Squadra di 4" (Parallel Thinking): Per ogni piccolo pezzo del problema, l'AI non scrive una sola risposta. Ne scrive quattro diverse contemporaneamente, come se quattro studenti diversi lavorassero allo stesso compito.
  • Il "Caporedattore" (Sintesi): Poi, un'altra istanza dell'AI legge queste quattro risposte, le confronta e dice: "Ok, tre di voi hanno sbagliato il segno meno, una ha la risposta giusta. Prendiamo quella giusta e correggiamo gli errori delle altre". È come avere un professore che corregge i compiti di quattro studenti e ne crea uno perfetto unendo i pezzi migliori.
  • Il "Righello Digitale" (Agentic Vision): Alcuni problemi richiedevano di misurare cose su dei disegni. L'AI da sola non è brava a misurare con gli occhi (come un umano che prova a indovinare la lunghezza di un oggetto guardandolo). Quindi, l'autore ha dato all'AI un righello virtuale: un piccolo programma Python che l'AI deve scrivere per "misurare" il disegno pixel per pixel. È come passare da un'osservazione a occhio nudo all'uso di un calibro di precisione.

3. Il Risultato: Il "Perfect Score"

Grazie a questo metodo, l'agente ha risolto tutti i problemi dell'Olimpiade 2025 ottenendo il massimo dei punti.
È la prima volta che un'AI raggiunge questo traguardo in una gara di questo livello.

4. Il "Ma..." (La Contaminazione dei Dati)

C'è un "ma" importante, come in ogni storia di successo.
L'AI usata (Gemini 3.1 Pro) è stata rilasciata dopo che la gara si è tenuta. C'è il sospetto che l'AI abbia "imparato" le risposte leggendo i documenti della gara durante il suo addestramento, invece di averli risolti davvero con la logica.
È come se un giocatore di scacchi avesse studiato le mosse dell'avversario prima della partita.
Tuttavia, l'autore nota che anche un'AI precedente (Gemini 3 Deep Think), che ha ottenuto un ottimo risultato ma non perfetto, sembra basarsi sulla stessa tecnologia. Quindi, anche se c'è questo rischio, il fatto che l'AI sia diventata così potente è comunque un passo enorme.

5. Le Scoperte "Nascoste"

Durante la preparazione, l'autore ha scoperto che anche i documenti ufficiali della gara contenevano errori!

  • C'era un disegno che mostrava una cosa e un grafico che mostrava l'opposto.
  • C'era una formula nel libro delle soluzioni che era sbagliata.
    L'AI, con la sua capacità di ragionamento, ha aiutato a trovare questi errori che nemmeno gli umani avevano notato subito. È come se un assistente digitale avesse detto: "Ehi, professore, nel suo libro c'è un errore di stampa!".

In sintesi

Questo documento ci dice che l'Intelligenza Artificiale sta diventando così brava che, se le diamo gli strumenti giusti (come un righello digitale e un sistema di controllo incrociato), può superare i migliori studenti umani nelle gare più difficili. Non è solo un "trucco", ma un segnale che stiamo entrando in una nuova era dove il ragionamento scientifico può essere potenziato dalle macchine.

È come se avessimo dato a un genio della fisica un super-potere: la capacità di non stancarsi mai, di controllare i propri errori mille volte e di misurare il mondo con la precisione di un laser.