A Catalog of Data Errors

该论文针对现有数据错误分类体系的不足,提出了一份涵盖缺失、错误和冗余三大类别的 35 种数据错误及统计指标(如偏差和异常值)的综合目录,为每种错误类型提供了形式化定义、实例及术语澄清,以助力研究人员和从业者系统性地实施针对性的检测与清洗策略。

原作者: Divya Bhadauria, Hazar Harmouch, Felix Naumann, Divesh Srivastava, Lisa Ehrlinger

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“数据世界的体检报告与错误百科全书”**。

想象一下,你经营着一家巨大的、繁忙的**“数字图书馆”**(这就是数据库)。每天,成千上万本书(数据)被送进来,被整理上架,然后被读者(比如人工智能、商业分析师)拿去阅读和做决策。

但是,这些书里经常会有各种各样的问题:有的缺页,有的印错了字,有的被重复粘贴了好多份,还有的书虽然字没印错,但内容已经过时了。如果读者拿着这些有问题的书去写论文或做决定,结果肯定会是一团糟。

这篇论文的作者们(来自德国、荷兰和美国的学者)觉得,以前大家虽然知道书里有错,但大家对“错”的定义很混乱。有的叫“缺页”,有的叫“空白”,有的叫“没写全”,大家吵个不停,而且很多新出现的错误(比如 AI 训练数据里的偏见)以前根本没被归类。

于是,他们做了一件大事:整理出了一份包含 35 种具体错误的“完全指南”

为了让你更容易理解,我们把这份指南里的内容分成三大类,用生活中的例子来解释:

第一类:数据“失踪”了 (Missing Data)

这就好比你点了一份套餐,但服务员端上来时,少了一部分菜。

  • 显性失踪 (Explicit Missing Value): 就像菜单上直接写着“今日售罄”或者留了个空白。这是最明显的,大家都知道这里缺东西。
  • 伪装失踪 (Disguised Missing Value): 这个比较狡猾。服务员没留白,而是随便填了个“未知”或者"-99"。看起来好像有东西,但实际上那是假的。比如,你的税务 ID 栏填了"12345678901",但这其实是个占位符,因为那个人根本没提供真实号码。这就像在填表时,为了应付检查随便写个假名字,系统以为你填了,其实没填。
  • 部分空行 (Partially Empty): 这一整行数据里,超过一半的内容都是空的。就像你买了一个盲盒,打开发现里面只有几粒沙子,其他全是空气。
  • 整行失踪 (Missing Tuple): 本来应该有一整本书在架子上,结果完全不见了。比如公司新招了 10 个人,数据库里只录入了 8 个,那 2 个人就像“隐形人”一样,系统里根本找不到他们。
  • 偏见数据 (Biased Data): 这就像你调查“全人类的口味”,但只问了“喜欢吃辣的人”。虽然数据本身没写错,但因为样本太少、太片面,导致结论是错的。这就好比只采访了一群球迷就得出结论说“全世界都爱足球”,忽略了其他运动爱好者。

第二类:数据“长歪”了 (Incorrect Data)

这部分数据虽然“存在”,但它们的样子或内容是错的。就像书里的字印错了,或者把“苹果”写成了“梨”。

  • 文字类错误:
    • 拼写错误 (Misspelling/Typos): 把 "Taylor" 写成 "Tayor",或者把 "Müller" 扫成了 "Moller"。
    • 乱码 (Incorrect Encoding): 就像把中文的“你好”显示成了乱码符号,因为翻译语言的方式不对。
    • 词序颠倒 (Word Transposition): 把“张三”写成了“三张”。字是对的,但顺序错了,意思就变了。
    • 填错位置 (Misfielded Value): 把“出生日期”填到了“电话号码”那一栏。
  • 逻辑与规则类错误:
    • 不合逻辑 (Invalid Value): 比如员工的工资是负数(-5000 元),或者年龄是 200 岁。这在现实世界里是不可能的。
    • 格式混乱 (Heterogeneous Formatting): 有的日期写的是"2023-01-01",有的写的是"01/01/2023"。虽然都是日期,但机器读起来会晕。
    • 单位错误 (Incorrect Unit): 把“美元”当成了“欧元”来算,数字看着挺大,但实际价值差远了。
    • 违反规则 (Rule Violation):
      • 业务规则: 公司规定“一个员工只能属于一个部门”,结果系统里一个人同时属于两个部门。
      • 法律规则: 比如违反了隐私法,把用户的敏感信息公开了。
    • 过时数据 (Outdated Data): 员工已经搬家了,但数据库里还存着他去年的旧地址。数据本身没错,但现在是错的。
  • 奇怪的“噪音” (Noise): 就像收音机里的杂音,数据里混入了一些随机的、无意义的干扰,导致数值稍微偏了一点。

第三类:数据“太多余”了 (Redundant Data)

这部分数据不是错的,而是重复了或者没必要。就像你家里买了三把一模一样的锤子,或者把同一本书复印了十份堆在桌上。

  • 重复元组 (Duplicate Tuples): 同一个人的信息被录入了两次。比如“张三”和“张 三”(中间有个空格),或者电话号码格式不同但其实是同一个人。系统会以为这是两个人,导致统计人数时多算了。
  • 无关数据 (Irrelevant Data): 数据库里混进了一些不该有的东西。比如这个数据库只存“苹果”的信息,结果混进来一条“香蕉”的记录。虽然香蕉也是水果,但在这个特定的篮子里,它就是多余的垃圾。

为什么这份“指南”很重要?

  1. 统一语言: 以前大家吵架是因为叫法不一样。现在有了这份指南,大家说“伪装失踪”就是指那种填了假数据的情况,不再混淆。
  2. 对症下药: 不同的错误需要不同的“医生”。
    • 如果是“缺页”,你需要去补全(Imputation)。
    • 如果是“印错字”,你需要用拼写检查(Correction)。
    • 如果是“重复”,你需要去重(Deduplication)。
    • 如果是“偏见”,你需要调整采样方法。
    • 如果不分清楚错误类型,就像给感冒的人吃治骨折的药,不仅没用,还可能有害。
  3. 为 AI 铺路: 现在的 AI 非常依赖数据。如果喂给 AI 的数据里有“偏见”或“伪装失踪”,AI 就会学坏,做出不公平的决策。这份指南帮助工程师在 AI 训练前,把数据里的这些“毒刺”拔出来。

总结来说:
这篇论文就是给数据科学家、工程师和 AI 开发者提供的一份**“数据清洁工手册”**。它告诉我们:数据里到底有哪些种类的“脏东西”,它们长什么样,以及我们该如何准确地叫出它们的名字,以便把它们清理干净,让数据变得真正有用。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →