Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference
Dit paper introduceert CausalPitfalls, een benchmark die aantoont dat huidige grote taalmodellen tekortschieten in het betrouwbaar uitvoeren van causale inferentie door veelvuldig statistische valkuilen te negeren, en biedt hiermee gestructureerde maatstaven voor de ontwikkeling van meer betrouwbare redeneersystemen.