Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

이 논문은 대규모 언어 모델을 기반으로 한 자율적 AI 분석가들이 인간 다중 분석가 연구와 유사한 분석적 다양성과 결과 불일치를 저렴하게 재현할 수 있음을 보여주며, 이에 따라 AI 자동화 과학의 투명성을 위해 다중 우주식 보고와 프롬프트 공개가 필수적임을 주장합니다.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "같은 재료, 같은 레시피, 다른 요리사"

상상해 보세요. 어떤 요리 대회에서 **모든 참가자에게 똑같은 재료 (데이터)**와 **"이 재료를 이용해 가장 맛있는 스테이크를 만들어라 (가설)"**라는 같은 지시를 내렸다고 가정해 봅시다.

  1. 과거의 실험 (사람 요리사들):
    예전에는 연구자들이 이 실험을 할 때, 수십 명의 사람 요리사를 모았습니다. 그런데 놀랍게도, 같은 재료를 썼음에도 어떤 사람은 소금을 많이 넣고, 어떤 사람은 후추를 많이 넣었습니다. 그 결과 "맛있다"는 사람도 있고 "맛없다"는 사람도 나왔습니다. 이것이 바로 논문에서 말하는 **'다수의 분석가 연구 (Many-analyst studies)'**입니다. 하지만 사람을 모으는 건 비용도 많이 들고 시간도 오래 걸려서 자주 할 수 없었습니다.

  2. 이 논문의 실험 (AI 요리사들):
    이번 연구자들은 **"AI(인공지능)"**를 요리사로 시켰습니다. AI 는 사람보다 훨씬 빠르고 저렴하게 수천 명을 동시에 부릴 수 있죠.

    • 실험 설정: 똑같은 데이터 (재료) 와 똑같은 질문 (가설) 을 4 가지 다른 AI 모델과 5 가지 다른 성격 (페르소나) 을 가진 AI 들에게 주었습니다.
    • 결과: 놀랍게도 AI 들도 사람처럼 결론이 갈렸습니다. 어떤 AI 는 "이 가설은 맞다!"라고 했고, 다른 AI 는 "아니야, 틀렸다"라고 했습니다.

🔍 왜 이렇게 갈렸을까요? (AI 의 '성격'과 '선택')

논문은 이 차이의 원인을 아주 구체적으로 찾았습니다.

  • 성격의 차이 (페르소나):
    AI 에게 "너는 회의적인 성격이야 (Negative)"라고 말해주면, AI 는 데이터를 의심하며 결론을 내립니다. 반대로 "너는 이 가설이 맞을 거라고 믿어 (Positive)"라고 하면, AI 는 그 가설을 지지할 만한 증거를 찾기 위해 데이터를 더 적극적으로 해석합니다.

    • 비유: 같은 스테이크를 평가할 때, "맛없을 거야"라고 생각하며 먹는 사람과 "맛있을 거야"라고 기대하며 먹는 사람의 평가가 다를 수 있는 것과 같습니다.
    • 결과: 가장 회의적인 AI 와 가장 지지하려는 AI 사이에서 결론이 완전히 뒤집히는 경우가 많았습니다.
  • 선택의 자유 (데이터 처리):
    AI 들은 데이터를 정리하는 방법 (누락된 값 처리, 어떤 변수를 넣을지 등) 을 스스로 결정합니다. 이 작은 선택들이 모여 결국 "통계적으로 유의미한 결과 (P-value)"를 바꾸어 버렸습니다.

⚠️ 문제점: "원하는 결론을 찾는 AI"의 위험

이 실험은 두 가지 큰 문제를 보여줍니다.

  1. 선별적 보고의 위험 (Cherry-picking):
    AI 는 저렴하고 빠르게 수천 개의 분석을 만들어낼 수 있습니다. 만약 누군가 "내 가설을 지지하는 결과만 골라내서 발표해"라고 AI 에게 시킨다면, AI 는 그 가설을 지지하는 수천 가지 방법 중 하나를 찾아내서 "이게 정답이야!"라고 주장할 수 있습니다. 이는 과학적 진실이 왜곡될 수 있는 매우 위험한 상황입니다.

  2. 하지만, 해결책도 될 수 있습니다:
    역설적이게도, AI 가 만들어낸 이 '다양한 결과들'을 모두 모아서 보면 오히려 진실을 더 잘 알 수 있습니다.

    • 비유: 만약 100 명의 요리사가 같은 재료를 써서 100 가지 스테이크를 만들었는데, 90% 가 "소금 1g"에서 가장 맛있다고 했다면, 우리는 그걸로 '진짜 정답'에 가까워진다고 볼 수 있습니다.
    • AI 가 만들어낸 다양한 결과들을 한눈에 보여주는 **'다중 우주 (Multiverse) 리포트'**를 작성하면, "어떤 분석 방법이 결론을 바꾸는지"를 알 수 있게 됩니다.

💡 결론: 우리가 배워야 할 점

이 논문은 우리에게 새로운 규칙을 제안합니다.

"AI 가 분석한 결과를 발표할 때는, 그 결과가 어떻게 나왔는지 (어떤 프롬프트를 썼는지, 어떤 코드를 썼는지) 를 모두 공개해야 한다."

단순히 "결과는 A 입니다"라고 말하는 게 아니라, **"A 라는 결론이 나오기까지 AI 가 어떤 선택을 했고, 다른 선택을 했다면 B 나 C 가 될 수도 있었다"**는 것을 함께 보여줘야 한다는 것입니다.

한 줄 요약:
AI 는 똑똑하지만, 우리가 어떤 '성격'을 부여하느냐에 따라 결론을 쉽게 바꿀 수 있습니다. 그래서 AI 가 분석한 결과를 믿기 전에, 그 결과가 어떻게 만들어졌는지 모든 과정 (프롬프트와 코드) 을 투명하게 공개해야 과학이 안전해집니다.