xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

이 논문은 실제 데이터셋에 존재하지 않는 시간적 근거를 평가하기 위해, 합성 시계열 데이터 생성 및 표준 로컬라이제이션 지표를 제공하는 재사용 가능한 Python 패키지 'xaitimesynth'를 소개합니다.

Gregor Baer

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시간 흐름에 따른 데이터 **(시계열 데이터)에 대한 이야기를 담고 있습니다.

마치 요리사가 만든 요리의 맛을 평가할 때, "이 요리에 어떤 재료가 들어갔는지"를 정확히 알려주는 **비밀 레시피 **(Ground Truth)가 없다면, 요리사가 "내가 쓴 소금 양이 적절했나요?"라고 물어봐도 답할 수 없는 것과 같습니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.


1. 문제: "왜 이 예측을 했지?"를 증명하기 어려운 이유

우리가 AI 에게 "내 시계열 데이터 (예: 주식 차트, 심박수 기록) 를 보고 '병'이라고 예측했어"라고 하면, AI 는 "아, 이 부분에서 심박수가 급격히 올라갔기 때문입니다"라고 설명합니다. 이것이 **설명 **(Attribution)입니다.

하지만 여기서 큰 문제가 생깁니다.
"정말 그 부분이 중요했을까? 아니면 AI 가 우연히 그 부분을 보고 착각한 걸까?"

실제 세상 (Real-world) 에서는 AI 가 왜 그렇게 판단했는지, **정답 **(Ground Truth)을 알 수 없습니다. 마치 시험 문제를 풀었는데 정답지가 없어서, "내가 푼 풀이 과정이 맞았는지"를 확인할 수 없는 상황과 같습니다.

2. 기존 해결책의 한계: "매번 새로 발명하는 바퀴"

연구자들은 이 문제를 해결하기 위해 **가짜 데이터 **(Synthetic Data)를 만들어 실험합니다.

  • 비유: "AI 가 '사과'를 구별하도록 훈련시킬 때, 정말 사과가 있는 곳을 미리 정해두고 그 위치를 기록해두는 것"입니다.
  • 문제점: 지금까지는 각 연구팀이 스스로 가짜 데이터를 만드는 프로그램을 0 부터 직접 짰습니다. A 팀은 A 방식, B 팀은 B 방식으로 만들었으니, 서로의 결과를 비교하거나 검증하기가 매우 어려웠습니다.

3. 해결책: xaitimesynth (엑사타임스인스)

이 논문은 **xaitimesynth**라는 **만능 도구 상자 **(Python 패키지)를 소개합니다. 이 도구는 다음과 같은 역할을 합니다.

🛠️ 역할 1: 완벽한 가짜 데이터 공장

이 도구를 사용하면 연구자는 복잡한 코딩 없이 YAML(설정 파일)만 작성하면 됩니다.

  • 비유: 레시피 책에서 "배경은 잡음 (노이즈), 핵심 특징은 30 초 뒤에 나타나는 '피크' 모양"이라고 적어두면, 도구가 알아서 수천 개의 가짜 시계열 데이터를 만들어줍니다.
  • 핵심: 이 도구는 **"어디에 어떤 특징이 숨겨져 있는지"를 자동으로 기록해 둔 정답지 **(Ground Truth Mask)도 함께 만들어줍니다.

📏 역할 2: 공정한 채점관

AI 가 만든 설명이 정답지와 얼마나 잘 일치하는지 공식적인 점수를 매겨줍니다.

  • 비유: AI 가 "여기가 중요해요!"라고 손가락을 가리켰을 때, 정답지가 가리키는 "진짜 중요한 곳"과 얼마나 겹치는지 AUC-ROC, Relevance Mass Accuracy 같은 점수표로 평가합니다.
  • 만약 AI 가 엉뚱한 곳을 가리켰다면, 이 도구가 "점수 0 점! 다시 공부하세요"라고 알려줍니다.

4. 왜 이것이 중요한가요?

이 도구의 가장 큰 장점은 **재현성 **(Reproducibility)과 편의성입니다.

  • 과거: 연구자 A 는 "내 방식이 최고야!"라고 주장했고, 연구자 B 는 "아니야, 내 방식이 더 좋아"라고 주장했지만, 서로 다른 가짜 데이터를 썼기 때문에 누가 진짜로 좋은지 알 수 없었습니다.
  • 현재: xaitimesynth 를 사용하면 **모두가 같은 기준 **(같은 가짜 데이터, 같은 채점 기준)으로 AI 의 설명 능력을 평가할 수 있습니다. 마치 모든 요리사가 같은 재료를 주고 같은 맛 평가 기준으로 요리를 시합하는 것과 같습니다.

5. 요약: 한 문장으로 정리

"AI 가 시계열 데이터를 분석할 때, '어떤 부분을 보고 판단했는지'가 맞는지 검증하기 위해, 정답이 미리 정해져 있는 가짜 데이터를 자동으로 만들고 공평하게 채점해 주는 만능 도구 상자를 만들었습니다."

이 도구는 이제 연구자들이 매번 가짜 데이터를 새로 만들 필요 없이, AI 의 설명 능력을 믿을 수 있는지를 쉽고 정확하게 확인할 수 있게 해줍니다.