Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文的核心观点非常有趣，它挑战了目前人工智能界的一个普遍迷信：“只要模型够大、算力够强，什么难题都能解决。”

作者赵志民（Zhimin Zhao）认为，有些任务之所以难，不是因为我们的“大脑”（AI 模型）不够聪明，而是因为任务本身的“土壤”不适合学习。

为了让你轻松理解，我们可以把 AI 学习比作**“教一个学生做题”**。

1. 为什么写代码（Code）比玩强化学习（RL）更容易？

想象一下，你在教两个不同的学生：

学生 A（代码生成）： 你让他写一段代码。
- 反馈机制： 只要他写错了一个标点符号，编译器会立刻报错，并精准地告诉你：“第 15 行，第 3 个字符错了，这里少了一个分号。”
- 特点： 反馈是密集的、局部的、绝对的。就像做数学题，答案对就是对，错就是错，而且老师能立刻指出哪一步错了。
- 结果： 学生学得飞快，因为每一次错误都是宝贵的“错题本”，能让他立刻修正。
学生 B（强化学习，比如让 AI 下棋或控制机器人）： 你让他玩一个游戏。
- 反馈机制： 他走了一万步，最后游戏输了。老师只说了一句：“你输了。”
- 特点： 反馈是稀疏的、模糊的。老师不知道是他第 1 步走错了，还是第 500 步走错了，或者是第 9999 步走错了。
- 结果： 学生很迷茫。他可能会为了“赢”而作弊（比如卡进地图 BUG），而不是真正学会怎么下棋。这就是所谓的“奖励信号太稀疏”。

结论： 代码之所以能突飞猛进，是因为它自带一套“完美的纠错系统”。而很多强化学习任务，就像是在黑暗中摸索，只有最后才知道是死是活，中间过程全是迷雾。

2. 学习的五个等级（从“不可能”到“完美”）

作者提出了一个**“学习难度金字塔”**，根据你能得到的反馈质量，把任务分成了 5 个等级：

Level 0：完全瞎猜（无反馈）
- 比喻： 就像让你猜一个完全封闭盒子里的球是什么颜色，而且无论你怎么猜，盒子都不会给你任何反应。
- 例子： 停机问题（判断一个程序会不会永远跑下去）。无论你怎么算，有些问题在数学上就是无法通过观察来确定的。
- 结局： 无论模型多大，都没用。
Level 1：猫鼠游戏（对抗性反馈）
- 比喻： 就像在和一个会读心术的对手下棋。你刚学会一种策略，对手立刻改变规则来针对你。你追得越紧，目标跑得越快。
- 例子： 优化搜索引擎排名。一旦你发现怎么刷排名，系统就更新算法，你的策略瞬间失效。
- 结局： 系统永远无法稳定收敛，越学越乱。
Level 2： noisy 的噪音（有噪音的反馈）
- 比喻： 就像在嘈杂的房间里听人说话。虽然能听到声音，但偶尔会听错。只要听得够多，统计一下，还是能猜出大概意思。
- 例子： 识别猫和狗的照片（有时候光线不好，猫看起来像狗）。
- 结局： 可以学，但需要大量数据来消除噪音。这是目前大多数 AI 成功的地方。
Level 3：只给正面例子（间接反馈）
- 比喻： 老师只给你看“正确的句子”，从来不告诉你“错误的句子”长什么样。你只能慢慢摸索，只要不犯错就行，但不知道是不是只有这一种写法。
- 例子： 语言学习。你读了很多书，学会了说话，但你不知道语法的完整边界在哪里。
- 结局： 可以学会生成 valid 的内容，但很难完全理解规则。
Level 4：完美裁判（直接反馈）
- 比喻： 就像做数学题，有一个标准答案，而且能立刻验证对错。
- 例子： 代码编译、数学证明验证。
- 结局： 最理想的学习环境，进步可预测且稳定。

代码生成的成功秘诀： 它虽然是在 Level 3（只给正确代码训练），但它背后有 Level 4 的编译器做“裁判”。一旦生成错误，编译器立刻报错（Level 4 反馈），这让学习过程变得极其高效。

3. 三个关键概念的区别

作者区分了三个容易混淆的概念，我们可以用**“造房子”**来比喻：

可表达性 (Expressibility)：
- 问题： 你的工具箱里有没有能造出这栋房子的图纸？
- 现状： 现在的 AI 模型（神经网络）工具箱太丰富了，理论上什么房子都能画出来。
- 陷阱： 工具箱太丰富反而不好，因为图纸太多，你根本不知道哪张是对的。
可计算性 (Computability)：
- 问题： 有没有一个具体的步骤（算法），能一步步把房子造出来？
- 现状： 有些问题（如停机问题）在数学上就是没有步骤能解决的。
- 关系： 能造出来的房子，不一定有步骤能造出来。
可学习性 (Learnability)：
- 问题： 给你一堆砖头和图纸碎片，你能学会怎么造出这栋房子吗？
- 核心观点： 这是最难的一关。哪怕你有图纸（可表达），也有步骤（可计算），但如果没人告诉你哪里错了（缺乏反馈结构），你就永远学不会。

4. 为什么“堆算力”行不通了？

现在的流行观点是：“只要数据够多、模型够大，AI 就能解决所有问题。”

作者说：大错特错。

比喻： 如果你是在 Level 0（完全瞎猜）或 Level 1（猫鼠游戏）的领域里，你就算给 AI 装上 100 个大脑，它也只是更快地犯错，或者更快地陷入死循环。
真相： 很多任务之所以难，是因为它们的信息结构不支持学习。就像你无法通过“多读几遍”来学会怎么在完全黑暗的房间里走路一样。
代码为什么行？ 因为代码的结构（语法、逻辑）本身就是高度结构化、可验证的。AI 只是利用了这种结构，而不是靠“死记硬背”或“暴力计算”。

5. 未来的出路在哪里？

既然不能只靠“堆模型”，我们该怎么办？作者给出了四个建议：

拆解任务： 把一个大难题拆成无数个小问题。比如，不要试图让 AI 直接写一个完美的操作系统，而是让它预测“下一个字符”是什么。小问题容易学，组合起来就是大能力。
设计更好的反馈： 不要只给“对/错”的结论。要给“哪里错了、为什么错”的详细诊断。就像老师批改作业，不能只打个大叉，要圈出具体错误。
降低目标： 不要追求“完美最优解”，先追求“局部正确”。一步步来，积少成多。
重新编码问题： 把那些“看起来不可学”的问题，转化成“可学”的代理问题。
- 例子： 我们没法直接教 AI“什么是好诗”，但我们可以教它“预测下一个字出现的概率”。通过这种转换，原本不可学的问题变成了可学的。

总结

这篇论文告诉我们：AI 的瓶颈不在于“模型不够大”，而在于“任务本身难不难学”。

代码之所以成功，是因为它自带一套严密的纠错和验证系统，让 AI 能像学生做数学题一样，一步步进步。而很多其他领域（如复杂的现实世界决策），缺乏这种结构，导致 AI 即使再聪明，也像是在迷雾中乱撞。

未来的突破，不在于制造更大的“大脑”，而在于找到那些结构清晰、反馈明确的问题，或者把复杂问题重新包装成容易学习的形式。

一句话总结： 别问“我的模型够不够强”，先问“这个问题本身，值得学吗？能学会吗？”

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

核心矛盾：
机器学习（ML）在代码生成任务上取得了令人惊讶的、可预测的进展，而在**强化学习（RL）**等其他领域（尽管设计上是交互和自适应的）却经常遭遇分布偏移（distribution shift）和泛化能力崩溃的问题。

现有解释的不足：
传统的解释（如“需要更多算力”或“奖励信号太稀疏”）无法解释为何这种差异在跨越多个数量级的规模扩展中依然存在。硬件、优化器和模拟器的改进并未消除这一差距。

核心问题：
作者提出，这种差异并非源于模型架构或算法的优劣，而是源于任务本身的信息结构（Information Structure）。

代码具有独特的信息结构，使其对监督学习高度可学习（Learnable）。
许多 RL 任务缺乏这种结构，导致即使增加模型规模也无法收敛。
关键疑问： 为什么“仅仅通过扩大规模（Scaling）就能解决所有剩余 ML 挑战”的假设值得怀疑？什么样的任务在理论上就是不可学习的？

2. 方法论与理论框架 (Methodology)

作者建立了一个基于信息结构的形式化理论框架，区分了计算问题的三个核心属性，并提出了一个可学习性五级层次结构（Hierarchy of Learnability）。

2.1 三个核心属性的形式化定义

作者严格区分了以下三个概念，并分析了它们之间的逻辑关系：

可表达性 (Expressibility)： 是否存在一个函数 $f$ $f$ 属于假设类 $\mathcal{F}$ $F$ ，能够完美匹配目标语言 $L$ $L$ ？（ $\exists f \forall x$ $\exists f \forall x$ ）
- 局限： 仅关注数学存在性，不要求可计算或可发现。
可计算性 (Computability)： 是否存在一个总图灵机（Total Turing Machine） $M$ $M$ ，能在有限步内判定 $L$ $L$ ？（ $\exists M \forall x$ $\exists M \forall x$ ，且 $M$ $M$ 必须停机）
- 局限： 即使问题可计算，也不意味着能从数据中学习（例如加密函数）。
可学习性 (Learnability)： 是否存在一个学习算法 $A$ $A$ ，能在有限样本下，对任意分布和任意数据呈现顺序，以高概率收敛到目标？
- 核心： 引入了对抗性（Adversarial）和数据呈现顺序的考量。

2.2 可学习性五级层次结构 (The Five-Level Hierarchy)

基于反馈信号的质量（Feedback Quality），作者将学习任务分为五个等级：

2.3 统一模板 (Unified Template)

所有属性都遵循统一的风险泛函形式： $\exists \Phi \in \mathcal{M}$ 使得 $R(\Phi, L) = 0$ 。

区别在于机制类 $\mathcal{M}$ 的定义（函数、图灵机、算法）和风险泛函 $R$ 的定义（点态上确界、分布期望、序列极限）。
量词深度（Quantifier Depth）： 随着等级提升，量词交替（ $\exists \forall \exists \forall \dots$ ）增加，意味着机制需要具备更强的对抗鲁棒性。

3. 关键发现与贡献 (Key Contributions & Results)

3.1 代码为何特殊？(Why Code is Special)

代码之所以成为 ML 的“避风港”，是因为它具备三个关键属性，使其处于Level 3（间接反馈）与 Level 4（直接反馈）的混合态：

硬语法约束 (Hard Syntactic Constraints)： 语法错误是确定性的（编译通过/失败），提供二元且精确的信号。
局部可识别错误 (Locally Identifiable Errors)： 类型错误、作用域错误等可以精确定位到具体行和变量，提供高密度、局部化的反馈信号。
强组合性 (Strong Compositionality)： 局部模式（如函数签名、算法模板）在不同上下文中复用，使得监督学习能从局部推断全局。

对比 RL：
RL 在代码上通常使用“通过/失败”的二元奖励。这属于低维、稀疏信号，且往往是**Level 1（对抗性/反射性）**问题，因为奖励信号无法告诉模型“哪里错了”或“为什么错”，导致模型无法有效利用反馈进行梯度更新。

3.2 可表达性陷阱 (The Expressibility Trap)

反直觉结论： 更高的可表达性（如无限 VC 维度的假设空间）并不一定意味着更好的可学习性。
理论依据： 根据 Gold 和 Vapnik-Chervonenkis 理论，如果假设空间包含所有可计算函数（VC 维度无限），则无法在分布无关（distribution-free）的假设下进行 PAC 学习。
现实解释： 尽管神经网络理论上可以拟合任何函数，但现实数据（如代码、文本）仅占据输入空间的一个低维流形（Manifold）。代码数据具有极高的“结构信息（Epiplexity）”，而图像数据则包含更多“时间有界熵（不可预测部分）”。因此，代码更容易被学习，并非因为模型更强，而是因为数据本身的结构更利于提取。

3.3 强化学习的结构性障碍

RL 的失败主要源于信息结构的缺陷，而非算力不足：

信息错位 (Information Misalignment)： 奖励信号通常是延迟的、稀疏的，且无法归因到具体动作（信用分配问题）。
非平稳性 (Non-stationarity)： 策略的变化改变了数据分布，导致标准收敛定理失效。
反射性奖励崩溃 (Reflexive Reward Collapse)： 当代理优化代理指标时，目标本身会发生偏移（Goodhart 定律），导致反馈信号退化为噪声（滑向 Level 0 或 Level 1）。

3.4 量词深度与难度

作者指出，可学习性比可计算性更难，因为可学习性要求算法在所有目标、所有分布、所有数据呈现顺序（包括对抗性顺序）下都能收敛。这种量词深度的增加（从 2 层到 5 层）解释了为何学习比单纯计算更困难。

4. 意义与启示 (Significance)

4.1 重新定义 AI 的边界

范式转移： AI 不应仅被视为“可计算函数”的子集，而应被视为“统计预测”的子集。
核心洞察： 许多任务（如证明定理、保证程序正确性）在逻辑上需要确定性，而 ML 只能提供基于分布的近似。如果任务的信息结构不支持学习（如 Level 0 或 Level 1），无论模型多大都无法解决。

4.2 对“规模定律”（Scaling Laws）的批判

规模不是万能药： 当任务的信息结构不可学习时，增加模型规模只会导致更快的过拟合或更一致的失败。
投资回报： ML 投资的回报取决于任务是否具备“可学习的结构”。对于不可学习的任务，更多的算力只会加速崩溃。

4.3 未来路径 (Paths Forward)

未来的突破不应仅依赖构建更大的模型，而应致力于：

任务分解 (Task Decomposition)： 将不可学习的整体任务拆解为具有稳定反馈的子任务（如代码生成中的 Token 预测）。
工程化反馈结构 (Engineered Feedback)： 设计能提供中间状态、及时归因和区分失败模式的反馈机制。
弱目标 (Weaker Objectives)： 放弃全局最优，追求局部正确、可验证的渐进式改进。
代理重编码 (Proxy Re-encoding)： 将原始问题转化为具有统计可优化结构的代理问题（例如将诗歌创作转化为下一个 Token 预测），但需警惕代理与原问题的偏差。

总结

这篇论文通过形式化分析，揭示了代码生成成功与强化学习困境背后的根本原因：信息结构。它论证了代码之所以可学习，是因为其具备高密度、局部化、确定性的验证机制（Level 3/4），而许多 RL 任务缺乏这种结构。论文呼吁学术界从“模型能力”转向“任务可学习性”的视角，认为未来的 AI 突破将来自于识别并重构那些具有可学习结构的问题，而非盲目追求模型规模的扩大。