Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts
Este artículo propone la métrica AQE para cuantificar cómo las actuales metodologías de detección de alucinaciones en modelos de lenguaje dependen excesivamente de "trucos" específicos del benchmark en lugar de una verdadera conciencia interna, lo que limita su generalización a entornos prácticos.