How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este estudio es como una gran prueba de conducir para los "choferes" más inteligentes del mundo (los Modelos de Lenguaje o LLMs), pero con una regla muy estricta: solo pueden conducir por las calles que tú les muestras en un mapa.

Aquí tienes la explicación de este estudio masivo (que consumió una cantidad de datos equivalente a leer millones de libros) en un lenguaje sencillo y con analogías cotidianas:

🧐 El Problema: ¿Son tan honestos como parecen?

En el mundo empresarial, queremos usar estas inteligencias artificiales para responder preguntas basadas en documentos que les damos (como contratos, manuales o informes). El gran miedo es la "alucinación": que el modelo invente una respuesta que no está en el documento, como si un chofer te dijera: "¡Vamos por aquí!" cuando en el mapa no hay calle.

El estudio se preguntó: ¿Cuántas veces mienten estos choferes?

📊 La Prueba: Un examen gigante

Los investigadores (de Kamiwaza AI) no usaron preguntas de un libro de texto viejo (que los modelos podrían haber memorizado). En su lugar, crearon un universo simulado desde cero: inventaron documentos y preguntas, sabiendo exactamente cuál era la respuesta correcta. Así, podían detectar si el modelo inventaba algo sin ayuda humana.

Probaron a 35 modelos diferentes (desde pequeños hasta gigantes) en tres escenarios:

Corto (32K): Como leer un periódico.
Medio (128K): Como leer una novela.
Largo (200K): Como leer una enciclopedia entera.

🔑 Los 5 Descubrimientos Clave (con analogías)

1. Nadie es perfecto (El "Suelo" de las mentiras)

Incluso el mejor modelo del mundo miente un poco.

La analogía: Imagina que el mejor chofer del mundo tiene un 99% de precisión. Pero si le pides que maneje 100 veces, siempre habrá al menos una vez en la que se equivoque o invente una calle.
El dato: En documentos cortos, el mejor modelo miente solo el 1.19% de las veces. Pero el modelo "promedio" miente en 1 de cada 4 preguntas. Y si el documento es muy largo (200K), ¡nadie se salva! Todos mienten más del 10%.

2. El tamaño no lo es todo (El "Gordo" vs. El "Entrenado")

Mucha gente cree que cuanto más grande es el modelo (más "cerebro"), mejor es. Falso.

La analogía: Tener un camión gigante (modelo enorme) no significa que sea un buen conductor. A veces, un camión pequeño pero muy bien entrenado (modelo más pequeño pero de una familia específica) conduce mejor que un camión gigante que no sabe leer el mapa.
El dato: Algunos modelos gigantes (como Llama 3.1 405B) inventaban respuestas casi tanto como los modelos pequeños. La familia de modelos "GLM" y "MiniMax" fueron los mejores, sin importar su tamaño. La "familia" (cómo fue entrenado) importa más que el tamaño.

3. Cuanto más largo el documento, más se confunden (El "Olvido" por exceso)

A medida que el documento se hace más largo, los modelos empeoran drásticamente.

La analogía: Es como pedirle a alguien que recuerde los detalles de una conversación de 5 minutos. Si le pides que recuerde una conversación de 5 horas, empezará a inventar cosas porque su memoria se satura.
El dato: Un modelo que era excelente en documentos cortos, al pasar a documentos muy largos, su rendimiento se desploma. Algunos modelos que funcionaban al 93% en documentos cortos, caían al 37% en documentos largos. ¡Y lo peor es que empiezan a inventar respuestas con mucha más frecuencia!

4. El "Modo Robot" (Temperatura 0.0) tiene un truco

En la IA, "Temperatura 0.0" significa que el modelo es 100% lógico y predecible (sin creatividad). La gente siempre dice: "Usa 0.0 para que no alucine". El estudio dice que esto es peligroso.

La analogía: Imagina un robot que camina por un pasillo muy largo. Si le dices "camina siempre recto y sin desviarte" (Temperatura 0.0), si tropieza un poco, se quedará atascado en un bucle infinito (caminando en círculos para siempre). Si le das un poco de libertad para "desviarse" (Temperatura más alta), es más probable que se desate del bucle y termine el camino.
El dato: Usar Temperatura 0.0 hace que los modelos se queden "trabados" generando texto infinito hasta 48 veces más a menudo que si les das un poco de creatividad. Además, a veces, un poco de "locura" controlada (Temperatura 0.7) hace que mientan menos.

5. Encontrar la verdad vs. No inventar (Dos habilidades distintas)

Pensábamos que si un modelo era bueno buscando información, también sería bueno en no inventar. No es así.

La analogía: Imagina un detective. Puede ser genial encontrando huellas dactilares en la escena del crimen (sabe buscar información), pero al mismo tiempo, puede ser muy imaginativo y acusar a alguien que no estuvo allí (inventar hechos).
El dato: Hay modelos que son excelentes buscando datos reales, pero que, cuando no encuentran la respuesta, simplemente se inventan una con total seguridad. Esto es peligroso porque parecen muy seguros de sí mismos mientras mienten.

🛠️ ¿Qué debemos hacer las empresas? (Consejos prácticos)

Elige bien al chofer: No compres el modelo más grande ni el más caro. Elige el modelo que ha demostrado ser honesto (como los de la familia GLM o MiniMax en este estudio). La diferencia entre el mejor y el peor es de más del 70%.
Cuidado con los documentos largos: Si tu documento es enorme, el modelo va a fallar más. No confíes ciegamente en que un modelo soporta "200,000 palabras" solo porque lo dice en la etiqueta. Pruébalo con tus documentos reales.
No uses el "Modo Robot" ciegamente: No pongas siempre la temperatura en 0.0. A veces, un poco de variación ayuda a que el modelo no se quede atascado y, paradójicamente, sea más honesto.
El hardware no importa: Da igual si usas chips de NVIDIA, AMD o Intel. El resultado es el mismo. Elige según el precio y la disponibilidad.

🎯 En resumen

Este estudio nos dice que la IA todavía no es infalible. Incluso los mejores modelos inventan cosas, especialmente cuando tienen mucha información para procesar. La clave no es esperar la perfección, sino elegir el modelo correcto, entender sus límites y ponerle frenos de seguridad (como verificar sus respuestas) antes de usarlo en el mundo real.

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

🧐 El Problema: ¿Son tan honestos como parecen?

📊 La Prueba: Un examen gigante

🔑 Los 5 Descubrimientos Clave (con analogías)

1. Nadie es perfecto (El "Suelo" de las mentiras)

2. El tamaño no lo es todo (El "Gordo" vs. El "Entrenado")

3. Cuanto más largo el documento, más se confunden (El "Olvido" por exceso)

4. El "Modo Robot" (Temperatura 0.0) tiene un truco

5. Encontrar la verdad vs. No inventar (Dos habilidades distintas)

🛠️ ¿Qué debemos hacer las empresas? (Consejos prácticos)

🎯 En resumen

1. El Problema

2. Metodología: RIKER

3. Contribuciones Clave y Escala del Estudio

4. Resultados Principales

A. Tasas de Alucinación (Fabricación)

B. Selección de Modelo vs. Tamaño

C. Efectos de la Temperatura

D. Consistencia del Hardware

5. Significado e Implicaciones

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

🧐 El Problema: ¿Son tan honestos como parecen?

📊 La Prueba: Un examen gigante

🔑 Los 5 Descubrimientos Clave (con analogías)

1. Nadie es perfecto (El "Suelo" de las mentiras)

2. El tamaño no lo es todo (El "Gordo" vs. El "Entrenado")

3. Cuanto más largo el documento, más se confunden (El "Olvido" por exceso)

4. El "Modo Robot" (Temperatura 0.0) tiene un truco

5. Encontrar la verdad vs. No inventar (Dos habilidades distintas)

🛠️ ¿Qué debemos hacer las empresas? (Consejos prácticos)

🎯 En resumen

1. El Problema

2. Metodología: RIKER

3. Contribuciones Clave y Escala del Estudio

4. Resultados Principales

A. Tasas de Alucinación (Fabricación)

B. Selección de Modelo vs. Tamaño

C. Efectos de la Temperatura

D. Consistencia del Hardware

5. Significado e Implicaciones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models