Using ChatGPT for Data Science Analyses

本文评估了 ChatGPT(特别是其数据分析插件)作为数据科学工作流中的量化副驾驶在数据探索、可视化及监督与无监督建模任务中的潜力与局限性,并指出其自动化前景。

Ozan Evkaya, Miguel de Carvalho

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“新手司机试驾自动驾驶汽车”的测试报告**。

作者(来自爱丁堡大学的两位学者)把 OpenAI 的 ChatGPT 数据分析师插件(DA)想象成一辆配备了最新自动驾驶系统的汽车。他们想看看,这辆车能不能真的帮我们把数据处理的活儿干好,或者它会不会在关键时刻把车开进沟里。

以下是用大白话和比喻对这篇论文核心内容的解读:

1. 背景:从算盘到“智能副驾驶”

  • 过去的故事:早在 19 世纪,人类处理数据就像是用算盘,非常慢。比如 1880 年美国人口普查,光整理数据就花了 10 年。后来有了打孔卡片机器(像早期的计算机),时间缩短到了 18 个月。
  • 现在的情况:现在有了 ChatGPT 的“数据分析师插件”。它就像一个超级聪明的副驾驶。你不用自己写代码(不用自己修车),只要告诉它你想看什么,它就能自动写代码、画图、算数。
  • 核心观点:这个副驾驶很厉害,能帮大忙,但它不能替代真正的司机(人类专家)。如果你完全不管它,它可能会 hallucinate(产生幻觉,胡说八道)或者犯低级错误。

2. 试驾过程:它做得怎么样?

作者用了两个数据集(一个是笔记本电脑价格,一个是房子价格)来测试这个“副驾驶”。

A. 探索数据(看风景)

  • 优点:它非常擅长**“看”**。你上传一个 Excel 表格,它能立刻告诉你:“这里有 1000 台电脑,大部分是联想的,价格分布是这样的……"它还能自动画出柱状图、饼图。就像你给它一张地图,它能立刻画出漂亮的路线图。
  • 缺点:它有时候**“看走眼”**。
    • 比如,它画了一个价格分布图,嘴上说“这是在对数坐标上画的”,但实际上图是普通坐标。就像它告诉你“我们在开法拉利”,其实车是辆自行车。
    • 在画复杂的图表(如马赛克图)时,它经常把标签挤在一起,或者颜色搭配得很丑,需要人类司机手动调整一下(比如把标签挪开)。

B. 寻找规律(找关系)

  • 优点:它能算出两个东西之间的关系。比如它发现“硬盘越大,电脑越贵”,“内存越大,电脑越贵”。这就像它告诉你:“嘿,这辆车跑得越快,油耗越高。”
  • 缺点:它**“嘴硬”**。
    • 图表上显示的相关系数是 0.68,它嘴上却说是 0.74。就像它看着温度计说“今天很热”,其实只有 20 度。
    • 它有时候会把不适合用“相关性”分析的变量(比如分类变量)强行拿来算,就像非要用尺子去量水的重量。

C. 预测未来(修车与预测)

这是最考验“副驾驶”能力的地方,作者让它尝试预测房价。

  • 线性回归(基础预测)
    • 它能建立模型,告诉你“面积越大,房价越高”。
    • 大 bug:它完全没考虑到**“负房价”**的问题。如果模型预测不好,它可能会算出“这房子卖 -5000 元”。这就像预测明天天气,结果说“明天会下火雨”,完全不符合逻辑。它没有检查模型是否合理。
  • 复杂模型(高级预测)
    • 它知道可以用“随机森林”或“神经网络”等高级方法。
    • 翻车现场:当作者让它用“神经网络”时,它发现环境里没有安装必要的软件(TensorFlow),于是直接报错。虽然它很机智地给了你一段代码让你去别的地方运行,但它自己无法完成这个任务。这就像它说“我会修引擎”,结果发现工具箱里少了个扳手。
  • 贝叶斯统计(概率预测)
    • 当作者让它做更复杂的贝叶斯分析时,它直接说“太慢了,我算不动”,然后放弃了。

D. 无监督学习(自动分组)

  • 作者让它把房子自动分类(比如“豪宅组”、“普通房组”)。
  • 它用了“肘部法则”(一种找最佳分组数量的方法)来画图。
  • 结果:图画得还行,但它承认“这个图看起来有点模糊,没有明显的拐点”。它诚实地告诉你:“我也拿不准分几组最好,你得自己拿主意。”

3. 核心结论:它是“副驾驶”,不是“自动驾驶”

这篇论文最终想告诉我们要**“人机协作”**:

  1. 它是极好的“副驾驶” (Co-pilot):对于新手或者需要快速看数据概览的人来说,它非常强大。它能帮你省去写代码的麻烦,快速生成图表和初步结论。
  2. 它不是“自动驾驶” (Full Automation):你不能把方向盘完全交给它。
    • 它会犯错(算错数、画错图)。
    • 它不懂业务逻辑(比如算出负房价)。
    • 它有时候会“一本正经地胡说八道”。
  3. 人类必须坐在驾驶位上:你需要懂一点统计学知识,去检查它画的图对不对,它说的结论有没有逻辑漏洞。特别是对于初学者,如果完全依赖它,可能会学到错误的知识。

4. 总结比喻

想象一下,ChatGPT 的数据分析插件就像是一个刚毕业、才华横溢但缺乏经验的实习生

  • 优点:他干活快,什么软件都会一点,能立刻给你画出漂亮的 PPT,还能告诉你很多数据背后的故事。
  • 缺点:他有时候会记错数字,有时候会过度自信地给出错误的结论,遇到没见过的复杂任务(比如安装新软件)就会卡壳。

这篇论文的建议是
你可以雇佣这个实习生帮你干活,让他做初稿、画草图、跑数据。但是,作为老板(人类专家),你必须仔细审核他的每一句话、每一张图,最后签字确认的必须是你自己。 只有加上人类的监督和批判性思维,这个工具才能真正成为数据科学领域的利器。