The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Il documento introduce la System Hallucination Scale (SHS), uno strumento psicometrico leggero e incentrato sull'utente per valutare in modo rapido e interpretabile il comportamento allucinatorio dei modelli linguistici su larga scala dal punto di vista dell'interazione reale, distinguendosi dai tradizionali rilevatori automatici.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale molto colto, che parla con una fluidità incredibile e sembra sapere tutto. Ma c'è un problema: a volte, quando gli chiedi qualcosa, ti risponde con una sicurezza disarmante inventando fatti che non esistono, come se avesse letto un libro che in realtà non è mai stato scritto. Questo fenomeno si chiama allucinazione (o hallucination in inglese).

Gli scienziati e gli ingegneri hanno cercato per anni di misurare quanto questi "sogni ad occhi aperti" dell'intelligenza artificiale siano pericolosi, ma spesso usavano strumenti troppo tecnici, simili a un termometro che misura solo la febbre senza chiederti come ti senti.

Ecco che entra in scena questo studio, che presenta una nuova invenzione chiamata SHS (System Hallucination Scale).

Cos'è l'SHS? (L'analogia del "Testo di Valutazione del Ristorante")

Immagina di aver mangiato in un nuovo ristorante.

  • I vecchi metodi (come i punteggi automatici) guardavano solo se il cibo era stato cucinato in 10 minuti o se la ricetta era stata seguita alla lettera.
  • L'SHS, invece, è come un modulo di feedback per i clienti che ti chiede: "Il cibo era davvero buono o sembrava buono ma sapeva di plastica?", "Il cameriere ha mentito sulla provenienza degli ingredienti?", "Se chiedevi di cambiare il sale, ti ascoltava o continuava a servirti quello sbagliato?".

L'SHS è un questionario semplice, fatto di 10 domande, pensato per essere compilato da una persona normale (non un esperto di computer) subito dopo aver parlato con un'intelligenza artificiale. Serve a capire: "Quanto mi fido di quello che mi ha appena detto questa macchina?"

Come funziona? (Il gioco delle coppie)

Il questionario è intelligente. Non ti chiede solo "È stato bravo?". Usa un trucco psicologico per evitare che tu risponda a caso. Per ogni aspetto, ti fa due domande opposte:

  1. La domanda "Positiva": "Le informazioni erano vere e verificabili?" (Se rispondi "Sì", è un buon segno).
  2. La domanda "Negativa": "La macchina ha inventato cose o ha nascosto le fonti?" (Se rispondi "Sì", è un brutto segno).

Confrontando le due risposte, il sistema calcola un punteggio che va da -1 (pericolo rosso, la macchina sta mentendo) a +1 (pericolo verde, la macchina è affidabile). È come avere un semaforo che ti dice se puoi fidarti di quel viaggio.

Cosa ha scoperto lo studio? (La prova sul campo)

Gli autori hanno messo alla prova questo questionario con 210 persone (studenti e volontari). Ecco cosa è successo:

  • È facile da usare: La maggior parte delle persone ha capito le domande senza bisogno di spiegazioni complesse. È come leggere una ricetta semplice.
  • Funziona davvero: Le risposte erano coerenti. Se qualcuno diceva "Le fonti erano chiare", poi diceva anche "Non ha inventato nulla". Questo dimostra che il questionario misura qualcosa di reale.
  • È diverso dagli altri: Mentre i computer usano formule matematiche per cercare errori, l'SHS misura come ci sentiamo noi umani quando interagiamo con la macchina. A volte una macchina può dire una cosa vera ma in modo così confuso che non ti fidi; altre volte può dire una bugia con tanta sicurezza che ti fidi. L'SHS cattura proprio questo.

Perché è importante? (La metafora della "Cintura di Sicurezza")

Pensa alle macchine moderne. Hanno sensori che rilevano se stai per urtare qualcosa (i vecchi metodi tecnici). Ma hanno anche le cinture di sicurezza e gli airbag che proteggono te, il passeggero (l'approccio umano-centrico).

L'SHS è la cintura di sicurezza per l'Intelligenza Artificiale.
Non serve a dire "questa macchina è perfetta al 100%", ma serve a dire: "Attenzione, in questo momento la macchina sta iniziando a allucinare, meglio controllare prima di prendere decisioni importanti".

In sintesi

Questo studio ci dice che per capire se un'intelligenza artificiale è affidabile, non basta guardare i suoi dati interni. Dobbiamo chiedere alle persone: "Ti è sembrato sincero?".
L'SHS è lo strumento semplice, veloce e intelligente che ci permette di farlo, trasformando la confusione delle bugie delle macchine in un punteggio chiaro, proprio come quando diamo una stella a un film o a un ristorante.

È un passo fondamentale per rendere l'Intelligenza Artificiale non solo più intelligente, ma anche più onesta e sicura per noi tutti.