Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

Questo articolo propone nuove tecniche di elicitarazione dell'incertezza basate sulle probabilità imprecise per permettere ai modelli linguistici di grandi dimensioni (LLM) di esprimere in modo più fedele sia l'incertezza di primo ordine sulle risposte che l'incertezza di secondo ordine sulla propria modellazione, superando i limiti degli approcci probabilistici classici.

Anita Yang, Krikamol Muandet, Michele Caprio, Siu Lun Chau, Masaki Adachi

Pubblicato 2026-03-12
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente super-intelligente, un "genio" digitale (chiamiamolo LLM, o Modello Linguistico), a cui poni domande. Spesso, questo genio risponde con estrema sicurezza: "La capitale della Francia è Parigi, ne sono certo al 100%!". Ma cosa succede se la domanda è ambigua? O se il genio non sa davvero la risposta ma indovina?

Fino a poco tempo fa, chiedevamo a questi modelli: "Quanto sei sicuro?". Loro rispondevano con un numero preciso, tipo "80%". Il problema è che questo numero spesso mentiva o era fuorviante, specialmente quando la domanda era complessa o quando il modello stava imparando qualcosa di nuovo mentre parlava con te.

Questo articolo scientifico propone un modo nuovo e più onesto per chiedere al genio: "Quanto sei sicuro?". Invece di chiedere un numero preciso, chiediamo un intervallo di sicurezza.

Ecco come funziona, spiegato con metafore semplici:

1. Il Problema: La "Finta Certezza"

Immagina di chiedere al genio: "Chi ha vinto il Mondiale di Cricket del 2019?".

  • La risposta vecchia: Il genio potrebbe dire: "Sono sicuro al 90% che sia l'Inghilterra". Ma aspetta! Il Mondiale è stato vinto da Inghilterra e Galles (erano co-ospiti e la squadra rappresentava il Regno Unito). La domanda è ambigua.
  • Il fallimento: Se chiedi solo un numero (90%), il modello non riesce a dire: "Ehi, la domanda è strana, non so bene a quale risposta ti riferisci". Si blocca su un numero che sembra preciso ma che nasconde il vero caos nella sua testa.

2. La Soluzione: Le "Probabilità Imprecise" (Un Intervallo, non un Punto)

Gli autori propongono di usare un concetto matematico chiamato Probabilità Imprecise. Invece di chiedere un punto fisso, chiediamo un intervallo.

Immagina di chiedere al genio: "Quanto è probabile che la risposta sia corretta?".

  • Vecchio metodo (Preciso): "Il 75%".
  • Nuovo metodo (Impreciso): "La probabilità è tra il 40% e il 90%".

Perché questo è meglio?

  • Il 40% (il limite inferiore) rappresenta: "Sono sicuro che ci sia almeno questa possibilità di base".
  • Il 90% (il limite superiore) rappresenta: "Potrei anche avere ragione al 90%, se le cose vanno bene".
  • La differenza tra 40 e 90 (il "buco" nel mezzo) è la parte più importante: è la misura della confusione o dell'ignoranza del modello. Se il buco è grande, il modello sa che non sa bene. Se il buco è piccolo (es. 89% - 91%), il modello è davvero sicuro.

3. I Due Tipi di "Dubbio" (Primo e Secondo Ordine)

Il paper distingue due tipi di incertezza, come se fossero due strati di una cipolla:

  • Primo Ordine (Il "Chi" non lo so): È l'incertezza normale. Esempio: "Non so se domani pioverà". È il dubbio sul risultato.
  • Secondo Ordine (Il "Quanto non lo so"): È l'incertezza sulla tua stessa incertezza. Esempio: "Non so se la mia previsione sul meteo è affidabile perché ho pochi dati".

L'analogia del Detective:

  • Primo ordine: Il detective dice: "Il colpevole è probabilmente Mario".
  • Secondo ordine: Il detective dice: "Sono sicuro che sia Mario, ma ho solo una testimonianza confusa, quindi la mia sicurezza va dal 30% al 90%".
    • Se il detective ha tante prove (molti esempi nel contesto), l'intervallo si stringe (es. 85% - 90%).
    • Se il detective ha poche prove o la domanda è ambigua, l'intervallo si allarga (es. 20% - 80%).

4. Come l'hanno fatto? (La Magia dei Prompt)

Non hanno dovuto modificare il "cervello" del modello (che è spesso segreto e chiuso). Hanno solo cambiato come gli parlano.

Hanno creato delle "domande speciali" (prompt) che costringono il modello a fare un gioco d'azzardo mentale:

  • "Se dovessi scommettere 1 dollaro sulla risposta corretta, quanto pagheresti per questa scommessa? E qual è il prezzo massimo che accetteresti di pagare?"

In questo modo, il modello è costretto a dare due numeri (un minimo e un massimo) invece di uno solo. Questo rivela la sua vera confusione.

5. Perché è importante?

  • Evita le allucinazioni: Se il modello dice "La mia sicurezza è tra il 10% e il 90%", tu sai che non devi fidarti ciecamente della sua risposta. È un campanello d'allarme.
  • Migliora le decisioni: Se usi questi modelli per prendere decisioni importanti (mediche, legali, finanziarie), sapere che il modello è "confuso" (intervallo largo) ti permette di chiedere a un umano di controllare, invece di seguire ciecamente un numero falso.
  • Costa poco: Non serve un supercomputer nuovo, basta cambiare le parole che usi per chiedere al modello.

In sintesi

Questo studio insegna agli assistenti digitali a dire non solo "Penso che sia X", ma anche "Penso che sia X, ma la mia testa è un po' confusa su quanto sia sicuro, quindi la mia certezza oscilla tra Y e Z".

È come passare da un orologio che segna un orario preciso ma sbagliato, a un orologio che ti dice: "Sono tra le 14:00 e le 15:00, e più è ampio il range, più sono confuso sull'ora esatta". È un modo molto più onesto e utile per interagire con l'intelligenza artificiale.