Each language version is independently generated for its own context, not a direct translation.
想象你是一位才华横溢但精疲力竭的教授,每天必须解决成千上万道数学题。其中大多数问题其实都是你以前见过的老题,只是数字或名字略有不同。
目前,你的系统迫使你从头重新求解每一道题,哪怕是你已经解过百万遍的题目。这既缓慢、昂贵,又浪费大量能源。
LAWS(从实际工作负载中进行符号学习)是一个全新的“智能助手”,它位于你的教授(即 AI 模型)之上,旨在解决这一问题。以下是其工作原理,通过简单的类比来说明:
1. 自动书写的“作弊条”
将 LAWS 想象成一张自动书写的作弊条。
- 工作原理:每当教授解出一道题,LAWS 就会进行观察。如果它发现某种模式——例如“每次输入长这样,答案就是那样”——它就会写下一条微小而简单的规则(一个“专家”),用于在未来处理该特定类型的问题。
- 神奇之处:它无需要求教授重新学习任何内容。它只需查看教授现有的知识(即“权重”),然后说:“我知道你能做到;这里有一个捷径。”
2. “安全徽章”(自我认证)
通常,如果你尝试使用捷径,你会担心:“这个捷径真的正确吗?还是它会给我错误的答案?”
- LAWS 的解决方案:LAWS 创建的每个捷径都附带一个数学安全徽章。在它使用任何捷径之前,它会检查教授的原始大脑,以 100% 的确定性证明该捷径对于特定类型的问题是安全的。
- 类比:这就像一名交通警察,他们不会仅仅猜测一辆车是否安全可驾驶;他们持有制造商颁发的数字证书,证明该车此刻是安全的。如果捷径未获认证,LAWS 就会拒绝使用它,并让教授去做那些困难的工作。
3. “双脑”系统(系统 1 与系统 2)
该论文将此与人类的思维方式进行了比较(基于心理学家丹尼尔·卡尼曼的观点):
- 系统 2(教授):缓慢、谨慎且耗能巨大。这就是执行复杂数学运算的大型 AI 模型。
- 系统 1(作弊条):快速、自动且廉价。这就是 LAWS。
- 它们如何协同工作:当问题进来时,LAWS 首先检查它的作弊条。
- 命中:“我以前见过这个!答案立刻给出。”(快速、廉价)
- 未命中:“这是一个我未曾见过的新变体。”(LAWS 说:“好的,教授,这一题由您来处理。”)
- 结果:只有在绝对必要时,教授才进行困难的工作。
4. “车队”效应(共同学习)
想象一支由 1,000 个机器人组成的车队,每个机器人执行不同的任务。
- 没有 LAWS:机器人 A 学会了如何开门。机器人 B 必须从头开始学习如何开同一扇门,尽管门是一样的。
- 有 LAWS:当机器人 A 找到了开门的捷径时,它将规则写下并上传到共享云端。机器人 B 瞬间下载那条微小的规则。
- 好处:整个车队共同变得更聪明。如果有 1,000 个机器人在工作,它们发现新捷径的速度是单个机器人的 1,000 倍。
5. 节省能源(“电池”类比)
运行大型 AI 模型就像运行一台高功率喷气发动机;它会消耗大量燃料(电力)。
- LAWS 的影响:通过 90% 的时间使用“作弊条”捷径,系统只需在那罕见的、困难的 10% 的问题上启动“喷气发动机”。
- 结果:该论文声称,这可以节省约10 倍的能源,使得在小型设备(如手机或机器人)上运行智能 AI 成为可能,而不会瞬间耗尽它们的电池。
6. 无需人工干预
与旧式的“符号 AI"(如 Cyc 或 Wolfram Alpha)不同,后者需要人工编写每一条规则和事实,LAWS 自动发现规则。
- 类比:与其让人类图书管理员为每一本书手写目录卡片,不如让 LAWS 充当一个机器人图书管理员,它观察人们借书,发现模式,并自动编写目录卡片。
总结
LAWS 是一个让 AI 模型变得更快、更廉价的系统,其方法包括:
- 观察它们的行为。
- 发现其工作中的简单模式。
- 证明这些模式在数学上是安全的。
- 利用这些简单模式,而非每次都进行困难的工作。
它将一个“缓慢、谨慎的思考者”转变为一个“主要依赖肌肉记忆的专家”,但保证这种肌肉记忆始终是正确的。
Each language version is independently generated for its own context, not a direct translation.
技术摘要:LAWS——从实际工作负载中进行符号化学习
1. 问题陈述
现代神经网络推理系统,包括大型语言模型(LLM)、扩散模型和机器人控制器,面临一个根本性的低效问题:重复执行而无复用。尽管绝大多数推理查询都是先前遇到过的模式的变体(例如,具有不同变量名称的相同算法,或具有不同对象的相同操作任务),但当前系统缺乏自动发现、认证和复用这些计算模式的机制。
现有方法存在显著局限性:
- KV 缓存:仅重用在确切的 token 前缀上的计算;无法处理参数化变体。
- 混合专家模型(MoE):路由到训练时确定的固定子网络集合;库不会增长,且对特定输入没有正确性的形式化保证。
- 符号人工智能(如 Cyc、Wolfram Alpha):依赖人工编写的规则和词汇表,需要巨大的人力投入,且无法在精心策划的领域之外进行泛化。
核心差距在于缺乏一个能够自动发现部署经验中可复用计算模式、形式化认证其有效性(无需重新训练)并持续增长这些模式库的系统。
2. 方法论:LAWS 架构
LAWS(从实际工作负载中进行符号化学习)是一种推理时架构,作为透明拦截层位于任何训练好的神经网络(FW)之上。它在无需修改基础模型或进行额外训练的情况下运行。
核心组件
参数化专家:LAWS 维护一个专家库 L。每个专家 e=(n∗,f,ϕ,τ∗,ϵfit) 包含:
- 路标(n∗):来自概率语言 Trie(PLT)的代表性输入(Trie 节点)。
- 函数(f):一种廉价计算(例如,常数、线性/雅可比修正、原始算法或小型 MLP),用于近似 FW。
- 参数提取器(ϕ):将输入映射为 f 所需的参数。
- 有效半径(τ∗):PLT 空间中的度量距离,在此范围内专家被保证是正确的。
- 拟合误差(ϵfit):专家与基础模型在路标上的误差界。
概率语言 Trie(PLT)路由:
- 系统使用 PLT 度量 dT(s,s′)=−log2PM(s∧s′) 来衡量输入之间的相似度。
- 收到查询 x 后,LAWS 执行查找,以找到任何其有效球 B(n∗,τ∗) 包含 x 的专家。
- 如果找到匹配(缓存命中),则执行廉价函数 f(ϕ(x))。
- 如果未找到匹配(缓存未命中),则运行完整的基础模型 FW(x)。随后,其输出可用于潜在地将新专家蒸馏到库中。
基于 Lipschitz 常数的自认证:
- 核心创新在于,每个专家的有效性都使用基础模型的 Lipschitz 常数 Λ(W) 进行形式化认证,该常数可从训练好的权重中计算得出,无需任何推理。
- 路由半径 τ∗ 源自 Λ(W)、拟合误差和质量阈值 δ。这确保了对于半径内的任何输入,近似误差都被 δ 所界定。
3. 主要贡献与理论结果
A. 自认证定理(定理 3)
该论文证明了训练好的权重 W 编码了一个 Lipschitz 常数 Λ(W),该常数认证了每个专家的有效性。
- 结果:对于任何专家 e 及其有效半径内的输入 x,误差 ∥FW(x)−f(ϕ(x))∥ 被 ϵfit+2Λ(W)⋅CE 所界定(其中 $CE$ 是嵌入直径)。
- 意义:这提供了正确性的形式化保证,无需“预热”阶段、代理模型或重新训练。
B. 专家库动态与增长(定理 6、7、8)
- 单调命中率:随着库的增长,预期缓存命中率是非递减的(定理 6)。
- 增长率:在熵为 H 的平稳分布下,N 次查询后创建的新专家数量为 O(2HlogN)。对于固定熵的工作负载,这为 O(logN)。
- 获取成本:获取新专家的成本(触发创建所需的“未命中”)随着 N→∞ 被摊销至零(定理 8)。
C. 对先前工作的泛化(定理 10)
LAWS 被证明严格泛化了现有方法:
- KV 缓存:作为 τ∗=0 且 f 为恒等函数的退化情况被恢复。
- 混合专家模型:作为库大小 K 固定且 Trie 深度为 1 的情况被恢复。
- 符号人工智能:与 Cyc 或 Wolfram Alpha 不同,LAWS 从模型的分布中自动发现其符号词汇(定理 11),并提供形式化有效性证书。
D. 机器人与车队学习(定理 15、16)
- 车队收敛:K 个协作单元的车队收敛到全覆盖的速度是单个单元的 Ω(K) 倍。
- OTA 更新:空中下载(OTA)更新所需的带宽被界定为 O(2Hlog(ΔN)⋅Bexpert)。对于拥有 1,000 个机器人的车队,这转化为每个机器人每天约870 KB,使得在边缘设备上进行持续学习成为可能。
E. 节能(定理 18)
- 成本降低:缓存命中消耗 O(n+k⋅dmodel) 次浮点运算,而完整传递消耗 O(Ln2+Lndmodel) 次。
- 结果:在 90% 的命中率下,LAWS 实现了每次查询高达10 倍的能耗降低。
4. 生物学与科学类比
该论文将 LAWS 框架化为生物智能的计算形式化:
- 卡尼曼的双重过程理论:LAWS 将系统 1(快速、基于模式)映射到专家库,将系统 2(缓慢、深思熟虑)映射到基础模型。当查询距离超过有效半径时,会触发“中止并重新规划”信号作为过渡。
- 乔姆斯基的先天先验:预训练权重 W 充当先天的语言习得机制(LAD),提供先验结构(PLT Trie),在部署前约束可能的语法/模式空间。
- 科学发现:正如科学家从观察中发现自然法则而非立法制定它们一样,LAWS 从实际工作负载中发现“法则”(不变模式),并将它们编码为廉价且经过认证的专家。
5. 意义与主张
该论文声称 LAWS 代表了 AI 推理的新范式,特别是针对边缘设备上部署的 AI 时代。其意义在于:
- 形式化安全:与启发式缓存不同,LAWS 为每个从模型权重直接导出的缓存专家提供δ-精度保证。
- 自动知识增长:它消除了对人工编写的符号规则或固定专家池的需求,允许系统从使用中持续学习和认证新能力。
- 可扩展性:它实现了车队学习,分布式设备通过紧凑的 OTA 更新高效共享知识。
- 效率:它为重复性工作负载提供了显著的能源和延迟降低,使高能力模型在资源受限的硬件上成为可能。
作者将Safebox/Safebots.ai 生态系统定位为这一架构的实际实现,将 LAWS 专家与硬件证明的策略执行相结合,创建一个经过认证、可审计且带宽高效的推理基础。
6. 局限性与开放问题
该论文承认了具体的局限性:
- Lipschitz 界:理论上的最坏情况 Lipschitz 常数 Λ(W) 对于深度网络可能很大,可能导致有效半径很小。作者假设在分布内数据上的有效Lipschitz 常数可能小得多(猜想 1),但这需要实证验证。
- 平稳性假设:理论收敛保证假设输入分布是平稳的。虽然系统通过缓存未命中路径处理分布偏移,但形式化界适用于平稳机制。
- 高精度任务:对于需要极高精度的任务(例如,具有多位小数的算术),所需的灵敏度可能超过有效半径,迫使系统始终调用基础模型(推论 2)。
总之,LAWS 提出了一个数学基础框架,神经网络通过从其自身操作历史中自动发现和认证计算法则,从“系统 2"思考者演变为“系统 1"专家。