Benchmarking LLMs for Pairwise Causal Discovery in Biomedical and Multi-Domain Contexts
이 논문은 13 개의 오픈소스 대규모 언어 모델 (LLM) 을 12 개의 다양한 데이터셋으로 평가하여, 현재 모델들이 명시적이고 단순한 인과 관계는 식별할 수 있으나 암시적이거나 복잡한 인과 관계 추출에서는 심각한 성능 저하를 보임을 밝히고, 이를 위한 통합 평가 프레임워크와 리소스를 공개했습니다.