Benchmarking LLMs for Pairwise Causal Discovery in Biomedical and Multi-Domain Contexts

이 논문은 13 개의 오픈소스 대규모 언어 모델 (LLM) 을 12 개의 다양한 데이터셋으로 평가하여, 현재 모델들이 명시적이고 단순한 인과 관계는 식별할 수 있으나 암시적이거나 복잡한 인과 관계 추출에서는 심각한 성능 저하를 보임을 밝히고, 이를 위한 통합 평가 프레임워크와 리소스를 공개했습니다.

Sydney Anuyah, Sneha Shajee-Mohan, Ankit-Singh Chauhan, Sunandan Chakraborty

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇이나 AI) 이 의학이나 다양한 분야에서 '원인과 결과'를 얼마나 잘 이해하고 찾아낼 수 있는지"**를 시험한 연구 결과입니다.

쉽게 비유하자면, AI 에게 "이 환자가 왜 아팠을까?"라고 물었을 때, AI 가 단순히 단어만 맞추는 게 아니라 진짜 논리적인 인과관계를 찾아낼 수 있는가를 확인한 실험 보고서라고 보시면 됩니다.

주요 내용을 일상적인 언어와 비유로 설명해 드릴게요.


1. 연구의 배경: 왜 이 실험을 했을까?

의사나 연구자들이 AI 를 의료 현장에 쓰려면, AI 가 **"A 가 B 를 일으켰다"**는 사실을 정확히 알아야 합니다.

  • 나쁜 예: "환자가 약을 먹었고, 그다음 통증이 사라졌다" → AI 가 "약이 통증의 원인이다"라고 바로 결론 내리면 안 됩니다. (동시 발생일 수도 있으니까요.)
  • 좋은 예: "약이 통증의 원인이 되어 사라졌다"라고 명확히 구분할 수 있어야 합니다.

하지만 현재 AI 들은 이 '인과관계 (Cause & Effect)'를 찾아내는 데서 큰 실수를 많이 합니다. 이 논문은 13 개의 다양한 오픈소스 AI 모델들을 모아놓고, **12 개의 다른 데이터셋 (의학, 금융, 뉴스 등)**으로 시험을 치른 것입니다.

2. 실험 방법: AI 에게 어떤 시험을 보냈나?

연구팀은 AI 에게 두 가지 능력을 시험했습니다.

  1. 탐지 (Detection): "이 문장에 원인과 결과가 써있어?" (Yes/No)
  2. 추출 (Extraction): "그렇다면, 원인은 뭐고 결과는 뭐야?" (구체적인 문장 추출)

이때 난이도를 4 단계로 나누어 시험했습니다.

  • 쉬운 문제: "비 (Cause) 가 내리니까 땅이 젖었다 (Effect)." (명확한 단어 '때문에'가 있음, 한 문장)
  • 어려운 문제: "비가 내렸다. 땅이 젖었다." (원인 단어가 없음, 두 문장)
  • 매우 어려운 문제: "비와 바람이 불었고, 그 결과 지붕이 무너졌고, 집이 침수되었다." (원인/결과가 여러 개이고 문장 사이를 넘나듦)

3. 주요 결과: AI 는 얼마나 잘했을까?

결론부터 말하면, AI 는 아직 초보 수준입니다.

  • 점수: 가장 잘한 모델도 평균 점수가 50% 미만이었습니다. (동전 던지기보다 조금 나을 뿐입니다.)
  • 쉬운 문제는 잘함: "A 때문에 B 가 되었다"라고 '때문에'라는 단어가 딱딱 들어있는 문장은 잘 찾았습니다.
  • 어려운 문제는 꽝:
    • 암시적인 관계: "비가 내렸다. 땅이 젖었다." 처럼 단어가 없으면 AI 는 "아, 비가 와서 땅이 젖었구나"라고 추론하지 못하고 헷갈려 합니다.
    • 문장 넘나들기: 원인은 첫 문장에, 결과는 두 번째 문장에 있으면 AI 는 두 문장을 연결하지 못합니다.
    • 복잡한 관계: 원인과 결과가 여러 개 섞여 있으면 AI 는 혼란에 빠집니다.

비유하자면:
AI 는 "표지판이 있는 길" (명확한 단어) 을 걷는 것은 잘하지만, "표지판이 없는 숲" (암시적, 복잡한 상황) 을 헤매는 데는 매우 서툴다는 것입니다. 특히 의학 논문처럼 문장이 길고 복잡한 글에서는 더더욱 엉뚱한 답을 내놓습니다.

4. 흥미로운 발견: 모델마다 성격이 다름

  • DeepSeek-R1: "원인이 있니?" (탐지) 는 잘하지만, "원인이 뭐야?" (추출) 는 잘 못합니다. (감은 좋지만 말은 못 하는 스타일)
  • Qwen2.5-Coder: "원인이 뭐야?" (추출) 는 잘하지만, "원인이 있니?" (탐지) 는 조금 못합니다. (구체적인 건 잘 찾지만 전체적인 판단은 약함)
  • 작은 모델 vs 큰 모델: 무조건 모델이 크다고 좋은 건 아닙니다. instruction(지시) 을 잘 따르도록 훈련된 모델이 더 잘했습니다.

5. 왜 이 연구가 중요할까?

이 연구는 **"AI 가 의료 현장에 투입되기엔 아직 위험하다"**는 경고를 줍니다.

  • 만약 AI 가 "약 A 를 먹고 B 가 생겼다"는 문장에서 "약 A 가 B 를 일으켰다"고 잘못 판단하면, 환자에게 잘못된 치료를 권할 수 있습니다.
  • 현재 AI 는 **단순한 패턴 매칭 (단어 찾기)**은 잘하지만, 진짜 논리적 추론은 못 합니다.

6. 결론 및 제언

이 논문은 AI 개발자들에게 다음과 같은 메시지를 보냅니다:

"지금의 AI 는 '표지판'만 보고 걷는 수준입니다. 의료나 금융처럼 실수가 치명적인 분야에 쓰려면, 표지판이 없는 숲길 (암시적 관계) 을 헤쳐나갈 수 있도록 더 많이 훈련시켜야 합니다."

연구팀은 이 실험에 사용한 모든 데이터와 코드를 공개하여, 전 세계 연구자들이 함께 AI 의 '인과관계 추론 능력'을 키우도록 독려했습니다.


한 줄 요약:
"현재 AI 는 'A 때문에 B'라고 적힌 문장은 잘 찾지만, 'A 가 B 를 만들었다'는 뉘앙스만 있는 복잡한 문장은 여전히 잘 못 알아듣습니다. 의료용 AI 를 만들기 위해서는 이 '눈치'를 더 길러야 합니다."