Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

🏛️ Le Dilemme : Quand l'Assurance devient un Labyrinthe

Imaginez que vous devez acheter une assurance. Autrefois, vous alliez voir un agent humain qui vous expliquait les règles. Aujourd'hui, grâce à de nouvelles lois au Québec, tout se fait en ligne. C'est plus rapide, mais c'est comme si on vous donnait un livre de 30 000 pages écrit dans une langue incompréhensible et vous disait : « Bonne chance, c'est à vous de comprendre ! ».

C'est ce qu'on appelle le « fossé de conseil ». Les gens sont perdus face à des contrats complexes.

Les chercheurs se sont dit : « Et si on utilisait une Intelligence Artificielle (IA) pour aider les gens ? » Mais attention, dans le domaine de l'assurance, une réponse « plausible » ne suffit pas. Si l'IA se trompe, vous pourriez ne pas être couvert en cas d'accident, ou l'assureur pourrait se faire poursuivre en justice. Il faut une précision juridique absolue.

🧪 L'Expérience : Le Grand Examen de l'IA

Pour tester si ces IA sont prêtes à travailler, les chercheurs (David et Richard de l'Université Laval) ont créé un examen secret et ultra-difficile.

Le Manuel : Ils ont numérisé 25 manuels de préparation aux examens officiels des agents d'assurance au Québec.
Le Test : Ils ont créé 807 questions à choix multiples basées sur ces manuels. C'est comme un examen de permis de conduire, mais pour les lois sur l'assurance.
Le Défi : Ils ont fait passer cet examen à 51 intelligences artificielles différentes (des modèles connus comme GPT-4, Claude, Llama, etc.).

Ils ont testé les IA de deux façons :

En mode « Mémoire pure » (Closed-book) : L'IA doit répondre avec ce qu'elle a appris pendant son entraînement, sans aide.
En mode « Copie ouverte » (RAG) : On donne à l'IA un dossier de documents officiels (les lois) et on lui demande de chercher la réponse dedans avant de répondre.

🏆 Les 3 Grandes Découvertes (Les Leçons de la Course)

Voici ce qu'ils ont découvert, avec des analogies simples :

1. La Réflexion bat la Mémoire (Le « Penseur » gagne)

Les IA qui ont obtenu les meilleures notes ne sont pas celles qui ont la plus grosse mémoire, mais celles qui réfléchissent avant de parler.

L'analogie : Imaginez deux étudiants. L'un a lu tout le livre par cœur (mémoire), l'autre a un livre ouvert mais sait analyser les problèmes (raisonnement). Devant une question piège, l'élève qui réfléchit (comme les modèles o3 ou o1) trouve la bonne réponse en suivant une logique étape par étape. L'élève qui a juste mémorisé se trompe souvent.
Résultat : Les modèles capables de « chaîne de pensée » (Chain-of-Thought) ont atteint près de 79 % de réussite, un niveau quasi-expert.

2. Le Paradoxe de l'Expert (Le Spécialiste perd contre le Généraliste)

On s'attendait à ce que les IA spécialisées en français ou en droit québécois gagnent. Eh bien, non !

L'analogie : C'est comme si un expert en droit français (mais qui ne connaît pas le Québec) perdait contre un génie universel qui parle toutes les langues et comprend la logique humaine. Les modèles « spécialisés » et plus petits ont souvent échoué, tandis que les géants généralistes (comme ceux d'OpenAI ou d'Anthropic) ont dominé.
Pourquoi ? Parce que comprendre la logique derrière une loi est plus important que de connaître le vocabulaire exact.

3. Le Danger de la « Distraction Contextuelle » (Le piège du dossier)

C'est la découverte la plus surprenante et la plus inquiétante. Donner des documents à l'IA ne l'aide pas toujours. Parfois, ça la rend plus bête.

L'analogie : Imaginez un chef cuisinier très talentueux. Si vous lui donnez un livre de cuisine ouvert sur la table, il peut se concentrer et faire un plat parfait. Mais si vous lui mettez 50 livres ouverts, des bruits de fond, et des notes contradictoires, il peut paniquer, oublier sa recette de base et brûler le plat.
Ce qui s'est passé : Certaines IA très intelligentes (comme Gemini-2.5-pro) avaient 74 % de réussite sans aide. Mais dès qu'on leur a donné les documents (mode RAG), leur score est tombé à 14 % ! Elles se sont perdues dans le texte, ont refusé de répondre par sécurité, ou ont donné des réponses trop longues qui n'étaient pas validées.

⚖️ Conclusion : Prêts à confier notre argent à une machine ?

Le papier conclut avec un message de prudence :

On est presque là : Les meilleures IA peuvent maintenant répondre correctement à près de 80 % des questions d'assurance. C'est impressionnant.
Mais c'est encore trop risqué : Le fait que certaines IA s'effondrent complètement quand on leur donne des documents (la « distraction ») est dangereux. Si une IA se trompe dans un conseil d'assurance, cela peut ruiner la vie de quelqu'un.
La solution : Pour l'instant, on ne peut pas laisser l'IA travailler seule. Il faut un « humain dans la boucle » (un agent humain qui vérifie le travail de l'IA) jusqu'à ce qu'on soit sûr à 100 % que la machine ne va pas se tromper à cause d'un document mal lu.

En résumé : L'IA a appris à réfléchir comme un avocat, mais elle a encore du mal à ne pas se laisser distraire par un dossier trop épais. Avant de la laisser conseiller nos assurances, il faut s'assurer qu'elle ne va pas faire une erreur coûteuse.

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

🏛️ Le Dilemme : Quand l'Assurance devient un Labyrinthe

🧪 L'Expérience : Le Grand Examen de l'IA

🏆 Les 3 Grandes Découvertes (Les Leçons de la Course)

1. La Réflexion bat la Mémoire (Le « Penseur » gagne)

2. Le Paradoxe de l'Expert (Le Spécialiste perd contre le Généraliste)

3. Le Danger de la « Distraction Contextuelle » (Le piège du dossier)

⚖️ Conclusion : Prêts à confier notre argent à une machine ?

1. Problématique

2. Méthodologie

A. Le Benchmark AEPC-QA

B. Protocole d'Évaluation

C. Modèles Évalués

3. Contributions Clés

4. Résultats Principaux

A. La suprématie du raisonnement à l'inférence (Inference-Time Reasoning)

B. Le RAG comme égalisateur de connaissances (et source de distraction)

C. Le Paradoxe de la Spécialisation

D. Écart Propriétaire vs Open-Source

5. Signification et Implications

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

🏛️ Le Dilemme : Quand l'Assurance devient un Labyrinthe

🧪 L'Expérience : Le Grand Examen de l'IA

🏆 Les 3 Grandes Découvertes (Les Leçons de la Course)

1. La Réflexion bat la Mémoire (Le « Penseur » gagne)

2. Le Paradoxe de l'Expert (Le Spécialiste perd contre le Généraliste)

3. Le Danger de la « Distraction Contextuelle » (Le piège du dossier)

⚖️ Conclusion : Prêts à confier notre argent à une machine ?

1. Problématique

2. Méthodologie

A. Le Benchmark AEPC-QA

B. Protocole d'Évaluation

C. Modèles Évalués

3. Contributions Clés

4. Résultats Principaux

A. La suprématie du raisonnement à l'inférence (Inference-Time Reasoning)

B. Le RAG comme égalisateur de connaissances (et source de distraction)

C. Le Paradoxe de la Spécialisation

D. Écart Propriétaire vs Open-Source

5. Signification et Implications

Articles similaires

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models