HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que los Modelos de Lenguaje Grandes (como el que estás usando ahora) son como niños prodigiosos muy inteligentes, pero un poco imaginativos. Pueden escribir ensayos maravillosos, contar historias y responder preguntas complejas. Sin embargo, a veces, cuando no saben la respuesta, en lugar de decir "no lo sé", inventan una historia que suena muy convincente pero que es totalmente falsa. A esto lo llamamos "alucinación".

El problema es que en campos importantes (como la medicina o el derecho), si este "niño" inventa un dato, las consecuencias pueden ser graves.

Hasta ahora, los investigadores intentaban detectar estas mentiras de dos formas:

El detective externo: Buscaba en internet si la frase existía en algún lado.
El psicólogo interno: Miraba dentro de la "mente" del modelo para ver si sus neuronas digitales estaban actuando raro.

Pero ambos métodos tenían un fallo: sabían que había un error, pero no podían explicar exactamente por qué ocurrió ni encontrar la prueba real que lo desmintiera de forma estructurada.

La Solución: HART (El Investigador Forense)

Los autores de este paper presentan HART, que es como un investigador forense digital diseñado para estos modelos. En lugar de solo decir "esto es falso", HART hace un trabajo de tres pasos muy detallado:

1. Localizar la "herida" (Span Localization)

Imagina que el modelo escribe un párrafo largo. HART no solo dice "hay un error". Va y señala exactamente la frase o la palabra específica donde ocurrió la mentira. Es como un cirujano que sabe exactamente dónde hacer la incisión, no solo que el paciente está enfermo.

2. Diagnosticar la "causa" (Mechanism Attribution)

Aquí es donde HART es genial. No solo dice "es falso", sino que clasifica por qué el modelo mintió. Usa analogías médicas para entender el error:

¿Confabulación? (El modelo inventó algo de la nada, como un médico que inventa un síntoma).
¿Generalización excesiva? (El modelo tomó una regla que funciona para 9 casos y la aplicó al 10º, que era diferente).
¿Fuga de contexto? (El modelo mezcló dos historias diferentes, como si el protagonista de una novela se metiera en la de otra).

Esto ayuda a entender la "personalidad" del error, no solo a detectarlo.

3. Buscar la "prueba irrefutable" (Evidence Retrieval)

Una vez que sabe qué es falso y por qué, HART va a una biblioteca gigante (una base de datos de hechos reales) y busca la prueba exacta que demuestra que el modelo se equivocó.

Si el modelo dice: "Einstein diseñó la bomba nuclear en Princeton".
HART busca y encuentra: "Einstein nunca diseñó bombas; su trabajo fue teórico y la bomba se desarrolló años después por otros".

La Analogía del "Detective de Misterio"

Piensa en HART como un detective de novela negra que llega a la escena del crimen (el texto del modelo):

El Escenario: El modelo ha dejado una pista falsa (la alucinación).
El Análisis: El detective no solo apunta al sospechoso. Examina la huella dactilar (el tipo de error) y determina si fue un crimen por pasión (confabulación) o por negligencia (fuga de contexto).
La Prueba: El detective va a la base de datos de la policía y saca el informe forense real que contradice la mentira, presentándolo en una carpeta ordenada.

¿Por qué es importante esto?

Antes, si un modelo fallaba, solo sabíamos que falló. Con HART, podemos:

Explicar el error: Saber si el modelo mintió porque se confundió o porque se inventó todo.
Corregir con precisión: Saber exactamente qué dato cambiar.
Construir confianza: En hospitales o tribunales, no basta con decir "esto parece mal". Necesitas una prueba real y una explicación clara de por qué.

En resumen

Este paper crea una nueva forma de pensar sobre las mentiras de la IA. Ya no se trata solo de "detectar" el error, sino de rastrear su origen, entender su mecanismo y encontrar la verdad real que lo desmiente. HART es la herramienta que convierte a la IA de un "niño imaginativo" en un "asistente responsable y verificable".

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: HART

1. El Problema

Los Modelos de Lenguaje Grande (LLM) han demostrado un rendimiento excepcional en la generación de texto y la respuesta a preguntas, pero sufren de un problema crítico: las alucinaciones. Estas son afirmaciones que parecen plausibles pero son fácticamente incorrectas o carecen de evidencia fiable.

Las investigaciones actuales sobre alucinaciones se dividen en dos paradigmas limitados:

Detección: Se centran en identificar si existe una alucinación (usando estimación de incertidumbre o recuperación de conocimiento externo), pero no explican el porqué ni el mecanismo de error.
Rastreo de Mecanismos Internos: Analizan los estados internos del modelo (representaciones latentes, atención), pero carecen de un marco de evaluación cerrado que vincule los errores con evidencia factual externa verificable.

La brecha principal: No existe un sistema que establezca correspondencias estructuradas a nivel de fragmento (span) entre el tipo de alucinación, el mecanismo de error subyacente y la evidencia factual externa que la refuta. Esto limita la interpretabilidad y la trazabilidad de los errores en dominios de alto riesgo (salud, leyes, finanzas).

2. Metodología: El Framework HART

El authors proponen HART (Hallucination Attribution Retrieval Tracing), un marco unificado que trata el rastreo de alucinaciones como una tarea de atribución y recuperación de evidencia basada en datos. El proceso se divide en cuatro etapas estructuradas:

A. Construcción de un Dataset Estructurado (Nivel de Fragmento)

Se crea el primer dataset estructurado para el rastreo de alucinaciones, anotando manualmente y con supervisión humana:
- Ubicación del Span: Posición exacta del texto alucinado.
- Tipo de Alucinación: (Ej. Entidad, Hecho, Lógica, Fabricación).
- Mecanismo de Error: La causa raíz (Ej. Desajuste de entidad, Sobregeneralización, Fallo de razonamiento, Fuga de contexto, Heurística de fabricación).
- Evidencia Contradictoria: Un conjunto de fuentes externas (Wikipedia, sitios oficiales) que refutan el error.
Se utiliza un proceso de "anotación automática con refinamiento humano" para garantizar la calidad, controlando la tasa de ruido mediante muestreo por lotes.

B. Recuperación de Evidencia (Two-Stage Retrieval)
Para encontrar la evidencia que refuta una alucinación, HART emplea un sistema de recuperación en dos etapas:

Codificación Semántica y Búsqueda Vectorial: Se utiliza Sentence-BERT para convertir fragmentos de alucinación y documentos de evidencia en vectores. Se emplea FAISS para una búsqueda de vecinos más cercanos eficiente (similitud de producto interno) en un espacio de alta dimensión.
Reordenamiento (Reranking) con Cross-Encoder: Los candidatos iniciales se reordenan utilizando un modelo Cross-Encoder (basado en Transformer) que analiza pares consulta-documento en profundidad. Esto captura alineaciones semánticas finas y consistencia factual, superando las limitaciones de la simple proximidad geométrica.
Criterio de "Hit": No se requiere una coincidencia de cadena exacta; una recuperación es exitosa si la evidencia recuperada pertenece a la misma clase de equivalencia semántica que la evidencia anotada manualmente.

C. Atribución y Trazado Causal
El framework integra tres módulos para generar una salida estructurada para cada fragmento alucinado:

Clasificación de Tipo de Alucinación: Identifica la categoría superficial del error.
Atribución de Mecanismo de Error: Determina la causa subyacente (ej. ¿fue un fallo de razonamiento o una alucinación de fabricación?).
Recuperación de Evidencia: Obtiene la fuente factual que corrige el error.
El resultado final es una tupla de trazabilidad: (Fragmento, Tipo, Mecanismo, Evidencia).

3. Contribuciones Clave

Nuevo Paradigma de Investigación: Cambia el enfoque de la "detección de errores" (interna) a la "trazabilidad causal basada en hechos externos", vinculando las salidas del modelo con el mundo real verificable.
Framework HART Unificado: Unifica la clasificación de alucinaciones, la atribución de mecanismos de error y la alineación de evidencia en un solo pipeline causal.
Primer Dataset Estructurado de Rastreo: Creación de un dataset de granularidad fina (nivel de span) con anotaciones multidimensionales (tipo, mecanismo, evidencia) diseñado específicamente para evaluar la interpretabilidad causal.
Validación Empírica: Demostración de que el enfoque propuesto supera significativamente a las líneas base existentes en la recuperación y atribución de evidencia.

4. Resultados Experimentales

Los experimentos se realizaron en datasets derivados de los modelos Qwen2.5-7B y Mistral-Small-24B, utilizando un corpus de evidencia de ~35,000 documentos.

Análisis de Alucinaciones: Se encontró que los modelos tienden a cometer errores fácticos (72-83%) y utilizan heurísticas de fabricación (84%) como mecanismo principal de error.
Rendimiento de Recuperación (Recall@k):
- HART superó drásticamente a las líneas base (BM25, DPR, Sentence-BERT, Cross-Encoder aislado).
- En el dataset Qwen con $k=1$ , HART alcanzó un Recall@1 de 0.8024, frente a 0.1074 de BM25 y 0.0859 de Sentence-BERT.
- La combinación de embeddings densos, múltiples consultas (Multi-Query) y reordenamiento Cross-Encoder fue crucial para el rendimiento óptimo.
Atribución Conjunta (Joint SR): HART logró una tasa de éxito de atribución conjunta (localización + tipo + mecanismo + evidencia) muy superior, demostrando que el sistema no solo encuentra el error, sino que lo explica y lo corrige con evidencia.
Precisión de Clasificación: Los clasificadores de tipo de alucinación y mecanismo de error alcanzaron accuracies de 79.13% y 83.32% respectivamente en el conjunto de validación.

5. Significado e Impacto

El trabajo de HART representa un avance fundamental en la seguridad y confiabilidad de los LLM:

Interpretabilidad Real: Permite a los usuarios y desarrolladores no solo saber que un modelo "alucinó", sino entender por qué ocurrió (mecanismo) y qué dice la realidad (evidencia).
Aplicabilidad en Alto Riesgo: Es crucial para dominios como la medicina y el derecho, donde la trazabilidad de la fuente es obligatoria.
Cierre del Ciclo de Evaluación: Proporciona un marco para evaluar la capacidad de los modelos de "auto-corregirse" o ser corregidos mediante la recuperación de hechos, moviendo la investigación más allá de la mera detección hacia la atribución causal.

En resumen, HART establece un nuevo estándar para el análisis de alucinaciones, transformándolo de un problema de detección binaria a un proceso de investigación de evidencias estructurado y trazable.