Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference
Este artigo apresenta o CausalPitfalls, um benchmark abrangente que avalia a capacidade de modelos de linguagem de grande escala (LLMs) de superar armadilhas estatísticas comuns na inferência causal, revelando limitações significativas em sua confiabilidade para aplicações do mundo real.