Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference
이 논문은 Simpson 의 역설이나 선택 편향과 같은 통계적 함정을 식별하고 해결하는 능력을 평가하기 위해 'CausalPitfalls'라는 새로운 벤치마크를 제안하고, 이를 통해 현재 대규모 언어 모델 (LLM) 이 인과 추론에서 심각한 한계를 보임을 입증합니다.