Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure

이 논문은 TabPFN 의 순차적 생성 과정에서 인과 구조를 통합하여 (DAG 기반 조건부 샘플링 및 CPDAG 전략) 인과적 관계를 왜곡하는 허위 상관관계를 방지하고, 생성된 합성 데이터의 구조적 정확성과 인과 효과 보존 능력을 향상시키는 방법을 제안합니다.

Davide Tugnoli, Andrea De Lorenzo, Marco Virgolin, Giovanni Cinà

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 가짜 데이터가 필요한가요?

우리는 의료, 금융 같은 분야에서 진짜 데이터를 쓰면 개인정보 보호 문제나 데이터 부족 문제가 생깁니다. 그래서 컴퓨터가 진짜와 똑같은 가짜 데이터를 만들어내게 하죠. 이를 '합성 데이터'라고 합니다.

최근에 TabPFN이라는 아주 똑똑한 AI 가 등장했습니다. 이 AI 는 수백만 개의 가짜 데이터를 공부해서, 새로운 데이터를 아주 잘 만들어냅니다. 마치 요리사가 수많은 레시피를 보고 새로운 요리를 창조하는 것처럼요.

2. 문제: AI 가 '순서'를 잘못 이해하면?

하지만 TabPFN 이 가진 치명적인 약점이 하나 있었습니다. 바로 **"생각하는 순서"**입니다.

  • 비유: imagine(상상해 보세요) AI 가 요리 레시피를 만들 때, **"재료 순서대로"**만 생각한다고 가정해 봅시다.
    • 진짜 상황: "소금 (원인) 을 넣어야 국물 (결과) 이 짜진다."
    • AI 의 실수: AI 가 "국물 (결과) 이 먼저 나왔으니, 그걸 보고 소금 (원인) 을 만들겠다"라고 생각하면 어떨까요?
    • 결과: AI 는 국물이 짜니까 소금이 많았을 거라고 추측해서, **실제로는 상관없는 두 가지가 서로 연결된 것처럼 엉뚱한 관계 (허위 상관관계)**를 만들어냅니다.

이 논문은 TabPFN 이 **원인과 결과의 순서 (인과 구조)**를 무시하고 무작위로 순서대로 데이터를 만들 때, 진짜와 다른 엉뚱한 관계를 만들어낸다고 지적합니다. 특히 "공통된 결과"를 가진 경우 (예: 비와 우산이 모두 '젖음'을 만듦) 에 이런 실수가 극심해집니다.

3. 해결책: "인과 지도 (Causal Map)"를 붙이다

저자들은 이 문제를 해결하기 위해 AI 가 데이터를 만들 때 **진짜 인과 관계 지도 (DAG)**를 함께 보게 했습니다.

  • 비유: 요리사가 레시피를 만들 때, 단순히 재료 순서만 보는 게 아니라 "소금이 국물을 짜게 만든다"는 인과 관계 지도를 옆에 두고 작업하는 것과 같습니다.
    • 방법 1 (완벽한 지도): 모든 인과 관계가 알려진 경우, AI 는 "자식 (결과)"을 만들기 전에 반드시 "부모 (원인)"를 먼저 만들게 됩니다.
    • 방법 2 (부분 지도): 인과 관계가 100% 알려지지 않은 경우 (우리가 모르는 부분이 있는 경우), 알려진 부분만 지도로 활용하고 나머지는 기존 방식으로 만듭니다.

4. 실험 결과: 지도를 보면 얼마나 달라지나요?

저자들은 다양한 실험을 통해 이 방법이 얼마나 효과적인지 증명했습니다.

  1. 순서만 바꿔도 달라진다: 지도가 없더라도, AI 가 원인부터 결과 순서로 데이터를 만들게만 해도 엉뚱한 관계가 크게 줄어듭니다. (거꾸로 만들면 최악이 됩니다.)
  2. 지도가 있으면 더 완벽하다: 인과 지도를 직접 활용하면, 가짜 데이터가 진짜 데이터의 **분포 (모양)**와 개인정보 보호 측면에서 훨씬 더 좋아졌습니다.
  3. 가장 중요한 것: 치료 효과 보존: 의료 데이터에서 "약이 병을 고치는 효과 (치료 효과)"를 가짜 데이터로 계산했을 때, 지도를 쓴 AI 는 진짜 효과와 거의 똑같은 결과를 냈습니다. 하지만 지도를 쓰지 않은 AI 는 엉뚱한 결과를 내서, 실제 임상 시험에서 잘못된 결정을 내리게 할 위험이 있었습니다.

5. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"AI 가 데이터를 만들 때, 단순히 통계적 패턴만 따르는 게 아니라 '왜' 그런 현상이 일어나는지 (인과 관계) 를 이해해야 한다"**는 것을 보여줍니다.

  • 약물 개발: 잘못된 가짜 데이터를 쓰면 효과가 없는 약을 개발하거나, 좋은 약을 버리는 치명적인 실수를 할 수 있습니다.
  • 신뢰성: 인과 관계를 고려한 가짜 데이터는 의사결정에 훨씬 더 신뢰할 수 있는 기반이 됩니다.

한 줄 요약:

"AI 가 가짜 데이터를 만들 때, **원인과 결과의 순서 (지도)**를 무시하면 엉뚱한 관계를 만들어내지만, 인과 지도를 함께 사용하면 진짜와 구별하기 힘들 정도로 정확한 데이터를 만들 수 있습니다."

이 논문은 AI 가 단순히 '모방'하는 것을 넘어, 데이터의 '이유'를 이해하게 함으로써 더 안전하고 신뢰할 수 있는 미래를 만들 수 있음을 보여줍니다.