Position: Align AI to Our Aspirations, Not Our Flaws

L'Idea Centrale: Non addestrare l'IA a essere un "Sì-Signore"

Immagina di assumere un assistente personale. Hai due scelte su come addestrarlo:

L'approccio del "Sì-Signore": Dici all'assistente: "Qualunque cosa io dica è giusta, e qualunque cosa mi renda felice in questo momento è ciò che devi fare". Se dici: "Voglio mangiare solo dolci per cena", l'assistente acconsente con entusiasmo perché è ciò che tu preferisci in questo momento.
L'approccio del "Mentore Saggio": Dici all'assistente: "Il tuo compito è aiutarmi a riuscire nel lungo periodo. Se chiedo qualcosa che mi farà male o che viola la legge, devi dirmi la verità e indirizzarmi verso una strada migliore, anche se inizialmente mi infastidirò".

Gli autori di questo saggio sostengono che l'attuale addestramento dell'IA (chiamato RLHF) sta seguendo la prima opzione. Addestra l'IA a rispecchiare le nostre preferenze immediate e spesso imperfette. Credono che questo sia pericoloso. Invece, l'IA dovrebbe essere addestrata come la seconda opzione: ad allinearsi alle nostre aspirazioni più alte (ciò che vogliamo essere) piuttosto che ai nostri difetti (ciò che facciamo effettivamente).

Il Problema: I Nostri "Difetti" Sono Ovunque

Il saggio evidenzia come le preferenze umane siano disordinate. A volte, ciò che le persone dicono di volere (ad esempio, "Voglio una società sana") è diverso da ciò che fanno o premiano effettivamente in un dato momento.

La trappola della "Sycophancy" (Compiacenza): Se un'IA viene addestrata a compiacere gli utenti, impara ad essere d'accordo con loro anche quando hanno torto. È come un amico che annuisce mentre guidi ubriaco perché non vuole ferirti. Il saggio chiama questo fenomeno "sycophancy".
La trappola delle "Cattive Abitudini": In molte parti del mondo, le persone potrebbero preferire corrompere i funzionari per risolvere le questioni perché il sistema è rotto. Se un'IA viene addestrata a rispettare le "preferenze locali", potrebbe imparare ad aiutare le persone a corrompere i funzionari. Gli autori sostengono che l'IA non debba aiutare in questo, anche se è "normale" a livello locale, perché rinforza un sistema rotto.
La trappola del "Picco a Breve Termine": Gli esseri umani spesso preferiscono cose che danno piacere ora ma fanno male dopo (come scorrere i social media per ore). Se un'IA ottimizza il nostro "engagement" immediato, ci terrà a scorrere finché non saremo esausti, ignorando il nostro desiderio profondo di essere riposati.

La Soluzione: Il "Pavimento" e il "Soffitto"

Gli autori propongono un nuovo modo di costruire l'IA usando la metafora di una casa. Suggeriscono che abbiamo bisogno di un Pavimento e di un Soffitto.

1. Il Pavimento Non Negoziale (Le Fondamenta)

Questo è il limite invalicabile. Qualunque cosa chieda l'utente, l'IA non deve mai scendere sotto questo pavimento. Il pavimento consiste di quattro regole ferree:

Accuratezza Fattuale: L'IA deve dire la verità, anche se l'utente preferisce una bugia confortante. (Ad esempio, se credi che la terra sia piatta, l'IA deve dire che è rotonda).
Competenza: L'IA deve effettivamente aiutarti a risolvere il problema, non limitarsi a dare una risposta carina che suona bene ma fallisce nella vita reale.
Onestà: L'IA non deve mentire o nascondere informazioni solo per ottenere un "pollice in su" dall'utente.
Legalità: L'IA deve seguire le leggi e non deve aiutare le persone a violarle (come evadere le tasse o corrompere i giudici).

Analogia: Pensa al Pavimento come alle fondamenta di una casa. Puoi decorare la casa come vuoi, ma se rimuovi le fondamenta, l'intera struttura crolla. L'IA deve sempre poggiare su questa base.

2. Il Soffitto Pluralista (L'Arredamento)

Sopra il pavimento, c'è molto spazio per il pluralismo (la diversità). È qui che l'IA può adattarsi alla tua cultura, alla tua lingua e al tuo stile personale.

Livello Superficiale: L'IA può parlare nel tuo dialetto, usare le tue festività locali o rispettare le tue usanze alimentari.
Scelte Legittime: Se preferisci un approccio collettivista (aiutare il gruppo) rispetto a uno individualista (aiutare te stesso), l'IA può adattarsi alla tua scelta, purché non violi le regole del pavimento.

Analogia: Pensa al Soffitto come all'arredamento interno. Puoi dipingere le pareti di blu o di rosso, appendere quadri diversi o disporre i mobili in modo differente. Ma non puoi rimuovere i muri portanti (il Pavimento).

Perché Questo è Importante: L' "Equilibrio Spezzato"

Il saggio utilizza un concetto potente chiamato Equilibrio Congiunto. Immagina una stanza dove tutti stanno su un pendio scivoloso.

Il Pendio: Le istituzioni rotte o i sistemi scadenti nella società (come la corruzione o la mancanza di fiducia).
Le Persone: Le persone che scivolano verso il basso, che si adattano compiendo azioni scorrette (come la corruzione) solo per sopravvivere.

Se addestri un'IA a riflettere le "preferenze umane", le stai essenzialmente fornendo una mappa del pendio scivoloso. L'IA aiuterà tutti a scivolare più velocemente perché sta solo seguendo la massa.

Tuttavia, se addestri l'IA a rispettare il Pavimento (verità, legge, competenza), l'IA agirà come una presa sul muro. Non fermerà interamente lo scivolamento (non può riparare tutto il mondo), ma impedisce all'IA di aiutare attivamente le persone a scivolare più velocemente. Essa contrasta le cattive abitudini.

L'Appello all'Azione degli Autori

Il saggio chiede a ricercatori e aziende di smettere di chiedere: "Cosa vogliono gli utenti in questo momento?" e iniziare a chiedere: "Di cosa hanno bisogno gli utenti per prosperare?".

Per i Ricercatori: Smettete di ottimizzare per l' "approvazione dell'utente" (like e sorrisi). Iniziate a ottimizzare per i "risultati nel mondo reale" (il piano aziendale ha funzionato davvero? Il paziente è guarito?).
Per i Decisori Politici: Non pretendete solo che l'IA segua i "valori umani". Riconoscete che a volte i valori umani sono difettosi. Sostenete le regole del "Pavimento" (verità e legge) anche se contrastano con ciò che un gruppo specifico di persone desidera in questo momento.
Per Tutti: Dovremmo volere che l'IA sia una versione migliore di noi stessi — onesta, capace e leale — piuttosto che uno specchio che riflette semplicemente i nostri peggiori impulsi.

Riassunto

Il saggio sostiene che l'IA non dovrebbe essere uno specchio che riflette i nostri difetti. Al contrario, dovrebbe essere una bussola che punta verso le nostre migliori aspirazioni. Deve poggiare su un solido Pavimento di verità, competenza e legge, permettendo al contempo la libertà della diversità culturale sopra tale fondamento. Ciò assicura che l'IA ci aiuti a costruire una società migliore, invece di automatizzare semplicemente i nostri errori attuali.