Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Kunnen AI's ons veilig adviseren over verzekeringen in Quebec?

Stel je voor dat je in de provincie Quebec (Canada) woont en je wilt een verzekering afsluiten. Door nieuwe wetten mag dit nu volledig online, zonder dat je een menselijke adviseur hoeft te spreken. Dit klinkt handig, maar er zit een groot probleem in: verzekeringsovereenkomsten zijn vaak 50 pagina's dik en vol met juridisch jargon. De gemiddelde mens is hier niet voor opgeleid. Dit noemen de auteurs de "advieskloof": mensen moeten complexe contracten zelf interpreteren, wat gevaarlijk kan zijn.

Om dit op te lossen, denken veel mensen: "Laten we een slimme AI (een Large Language Model of LLM) gebruiken." Maar wat als die AI een foutje maakt? Dan kan iemand zijn huis kwijtraken of geen dekking krijgen bij een ongeluk.

De auteurs van dit paper hebben een experiment gedaan om te kijken of AI's dit werk al veilig kunnen doen. Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De Proef: Een "Sluiktest" voor AI's

De onderzoekers hebben een speciale test gemaakt, genaamd AEPC-QA.

De bron: Ze hebben 807 moeilijke meerkeuzevragen overgenomen uit officiële examens voor verzekeringsadviseurs in Quebec. Omdat deze examens alleen op papier bestaan en niet online te vinden zijn, is het voor AI's onmogelijk om de antwoorden zomaar "geleerd" te hebben. Het is een eerlijke test.
Deelnemers: Ze hebben 51 verschillende AI-modellen getest, van de bekende grote namen (zoals GPT-4) tot kleinere, open-source modellen.

2. De Twee Manieren van Werken

Ze testten de AI's op twee manieren:

Manier A (De "Geheugen-test"): De AI moet het antwoord weten uit zijn eigen hoofd (zonder hulp).
Manier B (De "Boekje-test" of RAG): De AI mag tijdens het beantwoorden een speciaal boekje (een database met officiële verzekeringswetten) raadplegen om het antwoord te vinden.

3. De Drie Grote Verassingen

Verassing 1: "Denken" is belangrijker dan "Weten"

De beste resultaten kwamen niet van de modellen die het meest gelezen hadden, maar van diegenen die stappen vooruit denken (zogenaamde "Chain-of-Thought" modellen).

Analogie: Stel je voor dat je een wiskundetoets doet. Een slimme student die eerst even nadenkt en de som stap voor stap oplost, doet het beter dan een student die alleen maar snel gissen doet, zelfs als die laatste student meer feiten uit zijn hoofd kent.
Conclusie: Voor juridische vragen is het vermogen om logisch te redeneren veel belangrijker dan het simpelweg opslaan van feiten. De beste AI's haalden bijna 80% goed.

Verassing 2: Het boekje helpt sommigen, maar verpest het voor anderen

Dit is het meest interessante deel.

De "Hulpje": Voor AI's die niet veel weten over de wetten van Quebec, was het boekje een wondermiddel. Hun score steeg met wel 35%! Het was alsof je een slechte student een antwoordboekje geeft en hij plotseling een 9 haalt.
De "Aandachtstap": Maar voor de aller-slimste AI's ging het juist mis! Toen ze het boekje kregen, werden ze verward door de enorme hoeveelheid tekst. Ze raakten in paniek, vergeten de vraag, of gaven een te lang antwoord in plaats van alleen de letter van het juiste antwoord.
Analogie: Het is alsof je een Formule 1-coureur (de slimme AI) in een drukke supermarkt zet met een gigantische winkelwagen vol artikelen (het boekje). De coureur kan niet meer racen; hij raakt vast in de gangpaden en crasht. Dit noemen de auteurs "context distraction" (aandachtsverlies door context).

Verassing 3: De "Specialist" is niet altijd de beste

Je zou denken dat een AI die speciaal is getraind op de Franse taal en de Quebecse wetten het beste zou doen. Nee dus.

Het Paradox: De enorme, algemene AI's (die alles over de hele wereld weten) deden het veel beter dan de kleine, gespecialiseerde AI's die specifiek voor de Franse verzekeringsmarkt waren gemaakt.
Waarom? De gespecialiseerde modellen waren zo gefocust op de woorden en zinsbouw dat ze de logica vergeten waren. Ze konden de taal wel, maar ze snapten de valstrikken in de vragen niet. De grote, algemene modellen hadden een sterker "redeneervermogen" en konden de logica van de vraag doorgronden, ongeacht de taal.

4. Wat betekent dit voor de toekomst?

De conclusie is voorzichtig, maar duidelijk: We zijn nog niet klaar om AI's volledig zelfstandig te laten adviseren.

Het risico: Als een AI "aandacht verliest" door het boekje (zoals bij de slimste modellen), kan dat leiden tot ernstige fouten. In de verzekeringswereld is een foutje geen grappige grap, maar kan het leiden tot financiële rampen of rechtszaken.
De oplossing: We hebben een "mens in de loop" nodig. De AI kan helpen als een krachtig hulpmiddel, maar een mens moet de finale controle houden, vooral omdat de AI's soms verwarren raken door de informatie die ze krijgen.

Kortom: AI's worden steeds slimmer in het redeneren, maar ze zijn nog niet stabiel genoeg om zonder toezicht complexe verzekeringscontracten uit te leggen. Ze hebben nog een "menselijke piloot" nodig om ervoor te zorgen dat ze niet in de supermarkt vastlopen terwijl ze proberen te racen.

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

1. De Proef: Een "Sluiktest" voor AI's

2. De Twee Manieren van Werken

3. De Drie Grote Verassingen

Verassing 1: "Denken" is belangrijker dan "Weten"

Verassing 2: Het boekje helpt sommigen, maar verpest het voor anderen

Verassing 3: De "Specialist" is niet altijd de beste

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Kerninzichten

Betekenis en Conclusie

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

1. De Proef: Een "Sluiktest" voor AI's

2. De Twee Manieren van Werken

3. De Drie Grote Verassingen

Verassing 1: "Denken" is belangrijker dan "Weten"

Verassing 2: Het boekje helpt sommigen, maar verpest het voor anderen

Verassing 3: De "Specialist" is niet altijd de beste

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Kerninzichten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models