Semantic Chunking and the Entropy of Natural Language

该论文提出了一种基于自相似语义分块的统计模型,从第一性原理出发解释了自然语言的高冗余度,并证实该模型不仅能定量复现现代大语言模型在真实文本上的表现和约 1 比特/字符的熵率,还揭示了语言熵率会随语料语义复杂度的增加而系统性上升。

原作者: Weishun Zhong, Doron Sivan, Tankut Can, Mikhail Katkov, Misha Tsodyks

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人类语言做"CT 扫描”,试图解开一个困扰科学家几十年的谜题:为什么我们说话、写文章时,信息量其实比看起来要少得多?

想象一下,如果你随机敲击键盘,打出一串毫无意义的乱码(比如 "xkq#j9mz"),那每一个字符都充满了“惊喜”,你完全猜不到下一个是什么。这种文本的“信息密度”是最高的。

但现实中的英语(或者中文)呢?如果你说“今天天气真...", 你几乎可以肯定下一个字是“好”或者“不错”。这种可预测性,就是论文里提到的**“冗余”**。

核心发现:语言像一棵“语义树”

作者们提出了一个非常有趣的观点:语言不是一行行平铺直叙的字符,而是一棵有层次的“树”。

  1. 树的比喻

    • 树根:整篇文章的大主题(比如“讲一个关于狐狸的故事”)。
    • 树枝:段落或章节(比如“狐狸遇到了狗”)。
    • 树叶:具体的单词(比如“跳”、“懒”)。
    • 当我们阅读时,我们的大脑并不是在逐个猜测字母,而是在层层剥洋葱:先猜大方向,再猜局部情节,最后才确定具体的词。
  2. 分块(Chunking)的魔法
    作者让 AI 把文章像切蛋糕一样,递归地切成一块块有意义的“语义块”。

    • 第一刀:把整本书切成几个大章节。
    • 第二刀:把章节切成段落。
    • 第三刀:把段落切成句子。
    • 直到最后切成单个单词。
      这就形成了一棵**“语义树”**。

关键参数:大脑的“内存条” (K)

论文里有一个核心参数叫 K,你可以把它想象成人类大脑的“工作内存”容量,或者说是一次性能同时抓得住几个“关键点”

  • K 很小(比如 K=2):就像给小孩子讲故事。故事很简单,一次只需要记住“主角”和“动作”两个点。这种文本的信息熵(不确定性)很低,因为太容易猜了。
  • K 很大(比如 K=6):就像读现代诗歌或复杂的学术论文。你需要同时记住很多个抽象概念、隐喻和逻辑关系。这种文本的信息熵很高,因为很难猜,充满了“意外”。

惊人的发现:AI 的“困惑度” = 语义树的“复杂度”

以前,科学家只能用一种笨办法测语言的“信息量”:让 AI 去猜下一个字,看它猜错多少次(这叫“困惑度”)。猜得越费劲,说明语言越复杂。

这篇论文的突破在于,他们发现不用让 AI 去猜字,只要算出这棵“语义树”长得有多复杂(也就是 K 值是多少),就能直接算出语言的“信息量”

  • 结果惊人的一致:用“语义树”算出来的信息量,和让 AI 去猜字算出来的信息量,几乎一模一样
  • 这意味着:语言的“不可预测性”(熵),本质上是由它的层级结构决定的。我们之所以觉得语言难懂,是因为我们需要在大脑里同时维护很多个“语义块”(高 K 值)。

为什么这很重要?(生活中的类比)

想象你在玩一个**“传话游戏”**:

  • 场景 A(儿童故事,K=2)
    你只需要记住“小明”和“跑步”。传话的人很容易猜对,因为信息很单一。这就是低熵,就像 Shannon 当年算出的每字符 1 比特。
  • 场景 B(现代诗,K=6)
    你需要同时记住“月光”、“破碎的镜子”、“孤独的猫”、“时间的流逝”等 6 个意象交织在一起。传话的人很难猜,因为组合方式太多了。这就是高熵

论文告诉我们:

  1. 语言不是固定的:不同体裁的文章,其“信息密度”是不同的。童书很“稠密”(容易猜),诗歌很“稀疏”(难猜)。
  2. K 值就是难度系数:K 值越大,代表阅读这段文字时,大脑需要调用的“工作内存”越多,理解难度就越大。
  3. AI 的验证:现代大语言模型(LLM)之所以强大,是因为它们无意中学会了这种“分层理解”的能力,所以它们能精准地预测出人类语言的这种层级结构带来的信息量。

总结

这篇论文就像给语言学家和 AI 科学家提供了一把**“万能钥匙”**:

以前我们觉得语言的信息量是个黑盒,只能靠猜。现在我们知道,语言的信息量 = 语义树的层级复杂度

  • 如果你读的是童话,你的大脑就像在走平坦的单行道(K 小,熵低)。
  • 如果你读的是诗歌,你的大脑就像在走迷宫(K 大,熵高)。

这个发现不仅解释了为什么英语(或其他语言)有那么多“废话”(冗余),还告诉我们:语言的本质,就是人类大脑为了在有限的“内存”里处理复杂信息,而进化出的一种精妙的“分层压缩”技术。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →