Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Questo studio presenta il benchmark AEPC-QA per valutare 51 modelli linguistici nel contesto assicurativo del Québec, rivelando che il ragionamento durante l'inferenza e la generazione aumentata dal recupero (RAG) sono fondamentali per l'accuratezza, sebbene quest'ultima possa causare distorsioni contestuali e che i modelli generalisti superino quelli specializzati di nicchia.

David Beauchemin, Richard Khoury

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa di questo studio, pensata per chiunque voglia capire come l'Intelligenza Artificiale sta cercando di diventare un "consulente assicurativo" in Canada, ma incontra alcuni ostacoli inaspettati.

Immagina di dover leggere un contratto assicurativo. È come cercare di capire le regole di un gioco da tavolo scritto in una lingua straniera, con 50 pagine di testo piccolo e pieno di trappole legali. In Quebec (Canada), grazie a una nuova legge, le compagnie assicurative possono vendere queste polizze online senza la presenza di un agente umano. Il problema? I clienti si trovano soli a dover interpretare queste regole complesse. È come dare a un bambino le chiavi di una Ferrari senza avergli mai insegnato a guidare: il rischio di incidenti è altissimo.

Gli autori di questo studio hanno chiesto: "Possiamo usare l'Intelligenza Artificiale (specificamente i modelli linguistici o LLM) per fare da 'istruttore' e spiegare queste regole ai clienti?"

Per rispondere, hanno creato un esame di guida molto severo, chiamato AEPC-QA.

  • L'esame: Non è un test inventato. È basato su 807 domande reali prese dai manuali ufficiali usati per certificare gli agenti assicurativi in Quebec.
  • La sfida: Le domande sono in francese e riguardano leggi specifiche del Quebec (un sistema giuridico diverso da quello anglo-americano). È come se dovessero guidare su strade con regole diverse da quelle a cui sono abituati.

Hanno messo alla prova 51 diversi "cervelli" artificiali (dai più famosi come GPT-4 e Claude a modelli più piccoli e open-source) in due modi diversi:

1. Il modo "Memorizzato" (Closed-Book)

Immagina di chiedere a un esperto di diritto: "Cosa succede se mi colpisce una palla da golf?" senza dargli nessun libro di testo accanto. Deve rispondere solo con quello che ha nella sua memoria interna.

  • Risultato: Alcuni modelli "ragionatori" (quelli che pensano prima di parlare, come se facessero un ragionamento passo-passo) sono stati bravissimi, arrivando quasi all'80% di risposte corrette. Altri, che sembravano intelligenti ma non avevano "studiato" le leggi del Quebec, sono andati in crisi.

2. Il modo "Con il Libro Aperto" (RAG - Retrieval Augmented Generation)

Qui l'IA ha a disposizione un archivio digitale con tutte le leggi e i contratti giusti. Quando le viene fatta una domanda, l'IA cerca nel libro la risposta corretta e poi la formula.

  • La sorpresa (Il "Livellatore"): Per i modelli che non sapevano molto di diritto, questo è stato un miracolo. Hanno visto i loro voti schizzare dal 36% al 72%! È come se un principiante avesse ricevuto una mappa perfetta e fosse diventato un pilota esperto.
  • Il paradosso (La "Distrazione"): Ma qui arriva il colpo di scena. Alcuni modelli che erano bravissimi senza il libro, quando hanno ricevuto il libro aperto, sono crollati miseramente (alcuni sono passati dal 74% al 14%!).
    • Perché? È come se un genio matematico, quando gli metti davanti un foglio pieno di formule, si confonda, legga male la domanda o si spaventi perché il foglio sembra troppo complicato. Alcuni modelli hanno anche rifiutato di rispondere perché il testo sembrava "pericoloso" (pensando di dover dare consigli legali non autorizzati), mentre altri hanno scritto risposte così lunghe e confuse che il sistema non è riuscito a capire quale fosse la risposta giusta.

Le 3 Scoperte Principali (in parole povere)

  1. Pensare è meglio che ricordare: I modelli che "ragionano" (fanno un passo alla volta, come un detective) vincono sempre, anche se non hanno memorizzato le leggi a memoria. La capacità di pensare è più importante della memoria.
  2. Il libro non è sempre un amico: Dare all'IA un archivio di documenti non garantisce sempre un miglioramento. A volte, troppa informazione confonde i modelli più intelligenti, facendoli crollare. È un rischio enorme se l'IA deve dare consigli finanziari a persone reali.
  3. I "giganti" battono gli "specialisti": Sorprendentemente, i modelli generici e enormi (che parlano molte lingue e conoscono tutto) hanno fatto meglio dei modelli piccoli e specifici addestrati solo sul francese o solo sull'assicurazione. Sembra che la capacità di ragionare in modo astratto valga più della conoscenza specifica di un gergo locale.

Il Verdetto Finale

Gli autori concludono che, anche se l'IA sta diventando molto brava (quasi al livello di un esperto umano), non è ancora pronta per lavorare da sola.
Il rischio è troppo alto. Se un'IA si "distrae" leggendo un documento e dà un consiglio sbagliato, una persona potrebbe perdere i suoi risparmi o non avere copertura in caso di incidente.

La metafora finale:
Attualmente, l'IA è come un pilota di Formula 1 molto veloce, ma che si spaventa se gli metti davanti un manuale di istruzioni. Per usarla in sicurezza, abbiamo bisogno di un "istruttore umano" che stia sempre al posto del copilota, controllando che l'IA non si confonda e non dia consigli sbagliati. Non possiamo ancora lasciarla guidare da sola.