Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference
Este artículo presenta CausalPitfalls, un nuevo benchmark diseñado para evaluar rigurosamente la capacidad de los modelos de lenguaje grandes para identificar y superar trampas estadísticas en la inferencia causal, revelando así sus limitaciones actuales y proporcionando métricas para desarrollar sistemas de razonamiento más confiables.