Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

Imagina que las leyes de seguros en Quebec son como un manual de instrucciones gigante y aburrido, escrito en un lenguaje tan complicado que incluso los abogados tardan en entenderlo. Hace unos años, una nueva ley (el "Proyecto de Ley 141") permitió que las aseguradoras vendieran sus productos sin necesidad de un agente humano.

Esto suena genial para la eficiencia, pero crea un gran problema: el "vacío de consejos". Ahora, tú, el consumidor, tienes que leer esos contratos de 50 páginas y entenderlos tú solo, sin ayuda. Si te equivocas, podrías quedarte sin cobertura cuando más la necesitas.

Aquí es donde entran los Inteligencias Artificiales (IA) o "Modelos de Lenguaje" (como los que usan en ChatGPT). La idea es: "¿Por qué no le pedimos a una IA que nos explique el contrato?". Pero, ¿puedes confiar ciegamente en una máquina para darte consejos legales? Si la IA miente (alucina), podrías perder dinero o tener problemas legales.

Este estudio de la Universidad Laval en Quebec se propuso responder esa pregunta. Aquí te explico lo que descubrieron, usando analogías sencillas:

1. El Examen Secreto (AEPC-QA)

Los investigadores crearon un examen secreto con 807 preguntas de opción múltiple, sacadas de los manuales oficiales que usan para certificar a los agentes de seguros.

La analogía: Imagina que quieres probar si un estudiante sabe de medicina. No le preguntas cosas de Wikipedia, sino que le das un examen real de la facultad de medicina que nadie ha visto antes.
El truco: Como estos manuales son solo en papel y no están en internet, las IAs no podían haberlos "leído" antes. Así que, si una IA acertaba, era porque realmente sabía la respuesta o sabía razonar, no porque la hubiera memorizado de internet.

2. Dos formas de estudiar

Probaron a 51 IAs diferentes de dos maneras:

Modo "Memoria Pura" (Closed-Book): La IA debe responder solo con lo que tiene en su "cerebro" (su entrenamiento previo).
Modo "Con Libros Abiertos" (RAG): A la IA se le da un "libro de consulta" (los documentos legales reales) justo antes de responder, para que busque la información allí.

3. Las 3 Grandes Sorpresas (Lo que descubrieron)

A. El poder de "pensar antes de hablar"

Las IAs que tienen una capacidad especial para pensar paso a paso (como si hicieran un borrador mental antes de escribir la respuesta final) ganaron por goleada.

La analogía: Imagina dos estudiantes. Uno responde rápido y sin pensar (el modelo estándar). El otro toma un minuto, dibuja un diagrama, analiza las opciones y luego responde (el modelo de "razonamiento"). El segundo siempre gana en preguntas difíciles.
Resultado: Las IAs más inteligentes no son las que más datos tienen guardados, sino las que mejor razonan sobre los datos.

B. El "Equilibrador de Conocimiento" vs. La "Distracción"

Aquí pasó algo curioso.

Para las IAs "novatas": Darles el "libro de consulta" (RAG) fue mágico. Pasaron de ser muy malas a ser excelentes. Fue como darle una calculadora a alguien que no sabe matemáticas; de repente, puede resolver el problema.
Para las IAs "expertas": ¡Ojo! A algunas IAs muy inteligentes, darles el libro les hizo peor. Se confundieron tanto con tanta información extra que fallaron estrepitosamente.
La analogía: Es como poner a un chef experto en una cocina llena de ruido, olores extraños y recetas confusas. En lugar de cocinar mejor, se distrae y quema la comida. A esto lo llamaron "Distracción del Contexto".

C. El Paradoja del Especialista

Se esperaba que una IA entrenada específicamente en francés y en seguros de Quebec fuera la mejor. ¡Falso!

La analogía: Imagina que contratas a un experto local que solo conoce tu barrio (modelo especializado) versus un viajero mundial que ha visitado todos los países y sabe resolver problemas complejos (modelo generalista).
Resultado: El viajero mundial (las IAs grandes y generales) resolvió los problemas legales mejor que el experto local. Resulta que para entender las trampas lógicas de un contrato, es más importante saber pensar que saber vocabulario específico.

4. ¿Podemos confiar en ellas hoy?

La conclusión es un "Sí, pero...".

Las IAs más avanzadas ya pueden acertar cerca del 79% de las veces, lo cual es impresionante.
PERO, el sistema es inestable. A veces funcionan perfecto, y a veces, si les das demasiada información, fallan estrepitosamente (como el chef distraído).
Además, hay una diferencia grande entre las IAs de pago (privadas) y las gratuitas (de código abierto). Las privadas son mucho más fiables para este tipo de trabajo de alto riesgo.

En resumen

El estudio nos dice que aún no es el momento de dejar que una IA trabaje sola dando consejos de seguros en Quebec. Aunque son muy inteligentes, a veces se distraen o se confunden.

La solución ética: Necesitamos un sistema donde la IA sea el asistente que prepara la respuesta, pero un humano (el agente de seguros) sea quien la revisa y la firma. Hasta que las IAs no sean 100% estables y no se distraigan con la información extra, no podemos confiarles la seguridad financiera de las personas.

Es como si tuviéramos un copiloto de avión muy inteligente, pero todavía necesitamos que el piloto humano tenga la mano en el mando por si el copiloto se distrae con una tormenta.

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

1. El Examen Secreto (AEPC-QA)

2. Dos formas de estudiar

3. Las 3 Grandes Sorpresas (Lo que descubrieron)

A. El poder de "pensar antes de hablar"

B. El "Equilibrador de Conocimiento" vs. La "Distracción"

C. El Paradoja del Especialista

4. ¿Podemos confiar en ellas hoy?

En resumen

1. El Problema: La Brecha de Asesoría y la Precisión Legal

2. Metodología y Configuración Experimental

2.1. Nuevo Benchmark: AEPC-QA

2.2. Evaluación de Modelos

2.3. Protocolo

3. Contribuciones Clave

4. Resultados Principales y Hallazgos

A. La Supremacía del Razonamiento en Tiempo de Inferencia

B. RAG como "Igualador de Conocimiento"

C. El Fenómeno de "Distracción del Contexto"

D. La Paradoja de la Especialización

E. Brecha Propietaria

5. Significado y Conclusiones

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

1. El Examen Secreto (AEPC-QA)

2. Dos formas de estudiar

3. Las 3 Grandes Sorpresas (Lo que descubrieron)

A. El poder de "pensar antes de hablar"

B. El "Equilibrador de Conocimiento" vs. La "Distracción"

C. El Paradoja del Especialista

4. ¿Podemos confiar en ellas hoy?

En resumen

1. El Problema: La Brecha de Asesoría y la Precisión Legal

2. Metodología y Configuración Experimental

2.1. Nuevo Benchmark: AEPC-QA

2.2. Evaluación de Modelos

2.3. Protocolo

3. Contribuciones Clave

4. Resultados Principales y Hallazgos

A. La Supremacía del Razonamiento en Tiempo de Inferencia

B. RAG como "Igualador de Conocimiento"

C. El Fenómeno de "Distracción del Contexto"

D. La Paradoja de la Especialización

E. Brecha Propietaria

5. Significado y Conclusiones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models