Using ChatGPT for Data Science Analyses

이 논문은 생성형 AI 의 발전, 특히 OpenAI 의 데이터 분석 플러그인이 데이터 과학 워크플로우에 미치는 영향을 평가하며, 이를 양적 코파일럿으로서의 잠재력과 한계를 탐색 및 시각화, 지도 및 비지도 학습 모델링 등 다양한 작업에 적용하는 사례를 제시합니다.

Ozan Evkaya, Miguel de Carvalho

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 제목: "요리사 ChatGPT 와 함께 요리를 해보자: 훌륭하지만, 요리사는 여전히 당신입니다"

이 논문의 저자들은 ChatGPT 의 '데이터 분석 (Data Analysis)' 기능을 마치 요리 실력이 뛰어난 조수처럼 시험해 보았습니다. 이 조수는 컴퓨터 언어 (Python) 를 알아서 코드를 짜고, 그래프를 그리고, 통계를 계산해 줍니다. 하지만 그 조수가 항상 완벽할까요?

1. 시작: 재료를 다듬는 일 (데이터 탐색 및 시각화)

저자들은 먼저 '노트북 가격' 데이터를 ChatGPT 에게 맡겼습니다.

  • 성공한 점: ChatGPT 는 재료를 보고 "이 노트북들은 회사별로 몇 대씩 있네요?", "가격 분포는 어떤가요?"라고 바로 분석해 주었습니다. 마치 재료를 보고 "이건 고기, 저건 채소네요"라고 바로 분류해 주는 조수 같습니다.
  • 문제점: 하지만 가끔 잘못된 설명을 하기도 했습니다. 예를 들어, 그래프를 그리는데 "이건 로그 스케일 (수학적 변환) 입니다"라고 말했지만, 실제로는 그냥 원래 숫자였습니다. 또, 너무 복잡한 그래프 (모자이크 플롯) 를 그릴 때는 라벨이 겹쳐서 읽기 힘들게 만들기도 했습니다.
  • 교훈: 조수가 그래프를 잘 그려주지만, 결과물을 눈으로 확인하고 "이게 맞는 말이야?"라고 질문하는 것은 요리사 (사용자) 의 몫입니다.

2. 메인 요리: 예측 모델 만들기 (회귀 분석)

다음으로 집값 데이터를 가지고 "어떤 요인이 집값을 결정할까?"를 예측하는 모델을 만들게 했습니다.

  • 성공한 점: ChatGPT 는 "선형 회귀 (직선으로 예측), 랜덤 포레스트 (여러 나무로 예측) 등 다양한 방법을 제안했습니다." 마치 "이 요리는 스테이크로 하거나, 스프로 해도 되는데 어떤 걸 원하세요?"라고 메뉴를 추천해 주는 것 같습니다.
  • 위험한 점:
    1. 허위 사실 (할루시네이션): ChatGPT 는 "RAM 과 SSD 가 가격과 강한 상관관계가 있다"고 말했는데, 실제 숫자와는 조금 달랐습니다.
    2. 부적절한 선택: 복잡한 모델을 쓸 때는 "R2(모델 정확도 지표)"라는 것을 썼는데, 이건 비선형 모델에는 맞지 않는 지표였습니다. 마치 스파게티를 만들 때 '밥을 짓는 냄비'를 쓴 것과 비슷합니다.
    3. 심각한 오류: "음수 가격"이 나올 수도 있는 모델을 만들었는데, 이를 지적하지 않았습니다. 집값이 마이너스일 수는 없죠!
  • 교훈: 조수가 요리를 제안하지만, 어떤 재료를 쓸지, 어떤 조리법이 적합한지는 전문가 (사용자) 가 판단해야 합니다.

3. 고급 요리: 신경망과 베이지안 (심화 분석)

더 복잡한 인공지능 모델 (신경망) 을 시도해 보았습니다.

  • 결과: ChatGPT 는 "이 환경에서는 이 프로그램이 안 돌아갑니다"라고 오류를 뱉었습니다. 하지만 다행히도 "다른 곳에서 이 코드를 실행하세요"라고 대안을 제시했습니다.
  • 한계: 너무 복잡한 통계 모델 (베이지안) 을 시도했을 때는 "계산이 너무 오래 걸려서 멈췄습니다"라고 포기해 버렸습니다.
  • 교훈: ChatGPT 는 단순한 요리에는 훌륭하지만, 초고급 미슐랭 요리 (복잡한 수학 모델) 를 혼자서 완벽하게 해내기는 어렵습니다.

4. 결론: 조수는 조수일 뿐, 요리사는 당신입니다

이 논문의 핵심 메시지는 다음과 같습니다.

  • ChatGPT 는 훌륭한 '코파일럿 (동반 조수)'입니다. 데이터 분석의 첫 단계인 자료 정리, 간단한 그래프 그리기, 아이디어 제안에는 매우 유용합니다.
  • 하지만 '완전한 대체재'는 아닙니다. ChatGPT 는 가끔 숫자를 잘못 읽거나, 통계적 원리를 오해하거나, 편향된 답을 내놓을 수 있습니다.
  • 가장 중요한 것은 '인간 감독'입니다. ChatGPT 가 내놓은 요리 (결과물) 를 맛보고, "이건 짜다", "이건 식감이 다르다"라고 지적할 수 있는 **전문적인 안목 (데이터 과학자의 지식)**이 반드시 필요합니다.

한 줄 요약:

"ChatGPT 는 데이터 과학이라는 거대한 주방에서 재료를 다지고 소스를 만들어주는 최고의 조수입니다. 하지만 최종 요리를 완성하고 맛을 볼 책임은 여전히 인간 요리사 (사용자) 에게 있습니다."

이 도구를 잘 쓰려면, 조수가 하는 말을 무조건 믿지 말고 **"왜 그렇게 했지?", "숫자가 맞는 거야?"**라고 끊임없이 질문하고 확인하는 태도가 필요합니다.