Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Il paper sostiene che le capacità e le propensioni dei sistemi di intelligenza artificiale siano proprietà disposizionali che richiedono una misurazione scientifica basata su relazioni controfattuali, criticando le attuali pratiche di valutazione per la loro incapacità di distinguere tali disposizioni dalle mere prestazioni osservabili.

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

Pubblicato 2026-03-03
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🧪 Il Problema: Misurare l'IA come se fosse un "Vaso di Vetro"

Immagina di voler misurare quanto è fragile un vaso di vetro.
Oggi, per valutare l'Intelligenza Artificiale (IA), facciamo una cosa strana: prendiamo un vaso, lo lasciamo cadere una volta sola da un'altezza di un metro, vediamo se si rompe, e poi diciamo: "Ok, questo vaso ha un punteggio di fragilità del 50%!".

È assurdo, vero?

  • Se il vaso non si rompe, non significa che sia indistruttibile. Significa solo che quella volta non è caduto abbastanza forte.
  • Se si rompe, non sappiamo se era fragile o se era solo un colpo sfortunato.

Questo è esattamente ciò che facciamo con l'IA oggi.
Gli scienziati e le aziende testano le IA su una serie di domande fisse (come un quiz di matematica o un test di sicurezza). Se l'IA risponde bene, le diamo un "punteggio alto". Se sbaglia, le diamo un "punteggio basso".
Ma il problema è che i punteggi non ci dicono cosa l'IA è davvero capace di fare. Ci dicono solo cosa ha fatto in quel preciso momento su quel preciso quiz.

🧠 Cosa sono davvero le "Capacità" e le "Propensioni"?

Gli autori dell'articolo dicono che dobbiamo smettere di guardare il "risultato" e iniziare a guardare la natura della cosa. Usano due parole chiave:

  1. Capacità (Cosa può fare?): È come la forza di un muscolo. Non è quanto sollevi oggi, ma quanto potresti sollevare se il peso fosse di 10kg, 20kg o 100kg. È una proprietà stabile che cambia in base alla difficoltà.
  2. Propensione (Cosa è incline a fare?): È come la personalità o le tentazioni. Se metti un bambino davanti a una torta, quanto è propenso a mangiarla? Dipende da quanto ha fame, se c'è qualcuno che lo guarda, o se gli hai detto che è velenoso. Non è solo "mangia o non mangia", ma "quanto è probabile che lo faccia in diverse situazioni".

L'IA ha queste "propensioni" nascoste. Potrebbe essere capace di creare un virus biologico (capacità), ma non lo farà mai se non viene spinta da un incentivo forte (propensione).

🚫 Perché i Metodi Attuali Falliscono (La Trappola del "Quiz")

Oggi usiamo due metodi principali, e l'articolo dice che entrambi sono scientificamente difettosi:

  1. I Benchmark (I Quiz Standard):

    • L'analogia: È come testare la velocità di un'auto facendola correre solo su un rettilineo di 100 metri. Se l'auto vince, diciamo che è "veloce". Ma non sappiamo come si comporta in curva, sotto la pioggia o con un motore rotto.
    • Il difetto: I quiz sono fissi. Se l'IA impara a memoria le risposte (come un bambino che impara a memoria le tabelline senza capire la matematica), prende un 100%. Ma se le chiedi una domanda nuova, crolla. Il punteggio non misura la vera capacità, ma solo quanto l'IA è brava a indovinare quel quiz specifico.
  2. Il Red Teaming (Gli Attacchi Simulati):

    • L'analogia: È come assumere un ladro per provare a rubare da una casa. Se il ladro ci riesce, diciamo "La casa è sicura al 0%". Se non ci riesce, diciamo "È sicura al 100%".
    • Il difetto: I "ladri" (i tester) provano solo le idee che hanno in testa. Se non pensano a un modo geniale per entrare, la casa sembra sicura. Ma questo non misura la vera propensione della casa a essere violata, misura solo la creatività limitata dei tester.

🔬 La Soluzione: La "Scienza della Misurazione"

Gli autori propongono di trattare l'IA come fanno gli ingegneri con i materiali. Non basta dire "questo metallo è forte". Bisogna dire: "Questo metallo si piega a 50 gradi, si spezza a 100 gradi e si fonde a 500".

Per misurare l'IA in modo scientifico, dobbiamo fare 4 passi:

  1. Definire l'Oggetto: Stiamo misurando il "cervello" dell'IA (il modello base) o l'IA con i suoi filtri di sicurezza e le sue istruzioni? È come misurare la fragilità di un vetro dentro una scatola di protezione. Dobbiamo sapere cosa stiamo testando.
  2. Ipotizzare le Cause: Invece di lanciare domande a caso, dobbiamo chiederci: "Cosa rende una domanda difficile?". Forse è il numero di passaggi logici? Forse è la confusione nelle istruzioni? Dobbiamo trovare le "leve" che cambiano la difficoltà.
  3. Creare una Scala: Dobbiamo costruire domande che variano in modo controllato. Non un quiz misto, ma una serie di problemi dove aumentiamo gradualmente la difficoltà (es. 1 passaggio, poi 2, poi 3...).
  4. Mappare la Probabilità: Invece di un punteggio unico, vogliamo una mappa.
    • Esempio: "L'IA risolve il 90% dei problemi con 2 passaggi, il 50% con 5 passaggi e lo 0% con 10 passaggi".
    • Questo ci dice il limite reale della sua capacità, non solo quanto ha fatto bene oggi.

🌟 Perché è Importante?

Se continuiamo a usare i vecchi metodi, rischiamo due cose terribili:

  1. Falsa Sicurezza: Pensiamo che un'IA sia sicura perché non ha fallito i nostri test, ma in realtà potrebbe fallire in situazioni che non abbiamo mai immaginato.
  2. Falsa Competenza: Pensiamo che un'IA sia geniale perché prende 100 al test, ma in realtà non capisce nulla e non può essere usata per compiti nuovi.

💡 In Sintesi

Questo articolo ci dice che dobbiamo smettere di trattare l'IA come un esame scolastico (dove si conta quante risposte sono giuste) e iniziare a trattarla come un esperimento scientifico (dove si capisce come si comporta al variare delle condizioni).

È come passare dal dire "Ho toccato questa pentola e mi ha scottato, quindi è calda" (metodo vecchio) all'usare un termometro calibrato (metodo nuovo) che ci dice esattamente a quanti gradi è, anche se non la tocchiamo mai. Solo così potremo costruire un futuro sicuro con l'Intelligenza Artificiale.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →