💻 computer science

Learning a Maximum Entropy Model for Visual Textures using Diffusion

本文介绍了一种首个基于原理的、无监督的学习方法，通过利用扩散模型技术来学习紧凑的最大熵视觉纹理模型，该方法在显著减少统计量的情况下实现了最先进的生成质量，并能在表示空间中实现平滑插值。

原作者： Xinyuan Zhao, Eero P. Simoncelli

发布于 2026-06-17

📖 1 分钟阅读☕ 轻松阅读

原作者： Xinyuan Zhao, Eero P. Simoncelli

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

核心思想：教计算机如何“感知”纹理

想象一下，你正在观察一片草地。它不仅仅是一片绿色的模糊影迹；它是一个复杂的图案，由成千上万根独立的草叶组成，有的弯曲，有的笔直，有的明亮，有的暗淡。在计算机视觉中，我们称之为视觉纹理（visual texture）。

长期以来，计算机一直试图重现这些纹理。旧的方法就像一位厨师试图通过猜测食材来复制一道汤的食谱。他们要么：

人工设定规则： 一位人类专家会说：“好吧，对于草地，我们需要计算有多少个绿色像素接触到了其他绿色像素。”
借用大脑： 他们会使用一个专门用来识别“猫和狗”的计算机网络，并尝试利用这个“识猫的大脑”来弄清楚草地看起来是什么样的。

这两种方法效果尚可，但并不完美。它们要么过于僵化，要么是在用设计给其他任务的工具来做这件事。

本论文介绍了一种新方法： 作者并没有让计算机去猜测规则或借用大脑，而是教计算机直接从海量的纹理照片库中学习规则本身。他们称之为“最大熵模型（Maximum Entropy Model）”，这是一种高级说法，意思就是：“只要能匹配原始纹理的特定‘指纹’，就创造出尽可能随机、看起来最自然的图像。”

秘诀所在：“噪声清洗”游戏

如何教计算机在没有人类告诉它要寻找什么的情况下，去学习这些规则？作者使用了一个巧妙的技巧，借鉴了一种流行的 AI 类型——扩散模型（Diffusion Models）。

把它想象成一场**“从静电噪声中猜图”**的游戏。

设置： 想象你有一张清晰的砖墙照片。
噪声： 你慢慢地在照片上倾倒“静电”（白噪声），直到它变得完全无法辨认。
训练： 你把这团嘈杂的混乱景象展示给计算机，并问它：“原来的图片看起来是什么样的？”计算机尝试去猜那个“干净”的版本。
学习： 经过数百万次的尝试，计算机学会了一组特定的 512 个数字（统计数据）来描述这面砖墙。这些数字就像是该特定纹理的唯一身份卡。

神奇之处在于，计算机会自动弄清楚哪些数字是重要的。它不需要人类告诉它“寻找灰浆线”，它只是学会了某些噪声消除的过程最适合处理砖块。

两个魔术技巧：匹配 vs. 扩散

一旦计算机学会了这些纹理的 512 个“身份数字”，它可以用两种方式创造新的图像：

1. “统计匹配”（解谜者）
想象你有一袋拼图碎片。你知道一块砖墙的“平均”拼图碎片看起来应该是某种样子。你从一张空白画布开始，不断地重新排列像素，直到你的新图像的“平均值”与原始砖墙的“平均值”相匹配。

结果： 这能创造出非常高质量、真实的纹理。

2. “扩散”（雕塑家）
想象你有一块被灰尘（噪声）覆盖的大理石。你根据之前学到的“身份数字”，慢慢地凿掉这些灰尘。随着你移除噪声，砖墙的形状从混沌中缓缓浮现。

结果： 这同样能创造出很棒的纹理，尽管有时可能比“解谜者”方法产生的图像稍欠锐利。

为什么这种方法比旧方法更好？

作者将他们的新方法与当前的“冠军”纹理生成模型（称为 Gatys 模型）进行了对比。以下是巅峰对决：

规模决定胜负： 旧的冠军是一个巨人。它使用 176,640 条不同的规则（统计数据）来描述一种纹理。这就像是通过列出每种乐器每一次细微的振动来描述一首歌。
新的冠军： 本文介绍的新模型非常小巧。它只使用 512 条规则。这就像是通过仅仅列出旋律和节奏来描述那首歌。
结果： 尽管体积缩小了 300 倍，新模型创造出的图像看起来同样出色，甚至更好，优于那个庞然大物。

“果昔”测试：纹理融合

作者测试的最酷的东西之一是插值（interpolation），即纹理融合。

想象你有一张沙子的照片和一张水的照片。

旧方法 (Gatys)： 如果你尝试将它们融合，计算机经常会产生奇怪的棋盘格图案。这就像是把一块沙子和一块水贴在一起，并排放在一起。它看起来不像平滑的过渡，而像是一个凌乱的拼贴画。
新方法： 当作者融合沙子和水的“身份数字”时，计算机生成了一种看起来像泥巴或湿沙的纹理。它创造了一个平滑且均匀的过渡，让两种纹理的特征自然地融合在一起。

这表明新模型更深刻地理解了纹理空间的“形状”。

“对抗性”测试：寻找缺陷

为了真正看清谁更胜一筹，作者让两个模型互相博弈。

他们问道：“你能否创造出一张对我来说看起来像砖墙，但在你看来完全是垃圾的图片？”
旧模型的弱点： 它很容易被高频噪声（人类几乎看不见的微小、刺眼的静电）所欺骗。它误以为这些噪声是墙的一部分。
新模型的弱点： 它有时会产生一些不太协调的局部图案，但总的来说，它更难被欺骗。

总结

这篇论文提出了一种高效的新方法，用于教计算机如何理解和重构纹理。

自动学习： 不需要人类手动编写规则。
高效： 它使用的规则数量仅为旧模型的极小部分（512 对比 176,000）。
平滑： 它可以自然地融合纹理，创造出介于两者之间的全新、真实的材料。

作者认为，对于那些需要创建特定视觉模式以测试人类大脑或动物神经元如何反应的科学家来说，这是一个强大的工具，因为该模型既高质量又具备数学上的纯净性。

技术摘要：利用扩散模型学习视觉纹理的最大熵模型

问题陈述

视觉纹理——即包含重复元素（如草地或树皮）的空间均匀图像区域——是无处不在且对于材料识别至关重要的。现有的纹理模型通常依赖于一组局部统计量来定义纹理系综。根据 Julesz 的猜想和最大熵原理，一个纹理类可以被建模为在特定统计量约束下“最随机”的概率密度。然而，当前的方法存在两个主要局限性：

手工设计或迁移学习的统计量： 现有统计量要么是人工设计的（例如 Heeger 和 Bergen，Portilla 和 Simoncelli），要么是从针对无关任务（如物体识别）预训练的网络中提取的（例如 Gatys 等人使用 VGG19）。
可扩展性与质量的权衡： 像 Gatys 等人的先进模型虽然能达到极高的视觉质量，但依赖于庞大的参数集（约 17.7 万个统计量）；而较小的、手工设计的模型往往缺乏视觉保真度。

作者旨在开发首个原则性的方法，用于无监督学习一组可以参数化最大熵概率纹理模型的统计量，同时推导出高效的采样程序。

方法论

1. 最大熵公式化

作者将纹理系综形式化为一个关于图像 $x$ 的参数化概率密度 $p_\lambda(x)$ ，该密度是在一组 $d$ 个统计量 $f(x)$ 的约束下满足最大熵的分布：
$p_\lambda(x) = \frac{1}{Z(\lambda)} \exp\left( -\sum_{k=1}^d \lambda_k f_k(x) \right)$
这里， $\mu = E[f(x)]$ 代表目标统计量，而 $\lambda$ 是由 $\mu$ 唯一确定的拉格朗日乘子（权重）。目标是直接从数据中学习函数 $f$ （统计量提取器）以及到 $\lambda$ 的映射。

2. 通过去噪（扩散）进行训练

由于配分函数 $Z(\lambda)$ 的存在，通过极大似然直接优化 $f$ 和 $\lambda$ 是难以处理的。相反，作者利用了生成式扩散模型：

分数匹配（Score Matching）： 一个训练用于从噪声图像 $y$ 预测高斯噪声 $\epsilon$ 的去噪网络，可以近似分数函数 $\nabla_y \log p(y)$ 。
架构： 该模型采用双网络结构（图 1）：
- 统计量网络 ( $f_\theta$ )： 一个 UNet 式的编码器，处理噪声图像 $y$ 。它使用具有独立参数的双编码器；输出统计量 $f_\theta(y)$ 通过对应通道的内积计算得出。
- 权重网络 ( $\lambda_\phi$ )： 一个 ConvNeXt-T 模型，以干净的参考图像 $x$ 和噪声水平 $\sigma$ 作为输入，输出权重 $\lambda_\phi(x, \sigma)$ 。
目标： 两个网络通过联合训练来最小化预测噪声与实际噪声之间的均方误差，从而有效地学习最大熵密度的分数，而无需显式计算 $Z(\lambda)$ 。
数据集： 模型在从 ImageNet21K 中裁剪出的 100 万个均匀的 128x128 图像块上进行训练，这些图像块是基于一种源自可操纵金字塔分解的“均匀性”标准筛选出来的。

3. 采样程序

论文对比了两种生成以参考图像 $x_0$ 为条件的全新纹理的方法：

统计量匹配： 一种基于优化的方法，通过迭代更新图像 $x$ 以最小化 $\|f(x) - f(x_0)\|^2$ 。这是以往纹理模型中使用的标准方法。
扩散采样： 一种使用学习到的分数函数执行反向扩散过程（DDPM）的生成式方法，并在每个时间步长上以权重 $\lambda(x_0, \sigma_t)$ 为条件。

4. 对抗性比较

为了直接比较模型，作者采用了“MAD 竞争”策略。给定一个参考图像 $x_0$ ，他们合成一个图像 $x$ ，该图像在其中一个模型的统计量下与 $x_0$ 匹配，但在另一个模型的统计量下则表现出最大的差异。这暴露了每个模型的特定盲点和伪影。

核心贡献

统计量的无监督学习： 首个通过数据学习统计量以参数化最大熵纹理模型的方法，而非依赖于手工设计或迁移学习。
紧凑的高质量模型： 训练后的模型仅使用 512 个统计量（参数），却能生成视觉质量媲美甚至优于 Gatys 模型（使用 176,640 个统计量）的纹理。
采样比较： 系统性的比较表明，虽然统计量匹配为所提模型提供了更高的样本质量，但扩散采样提供了一种独特的生成路径。
表示空间分析： 证明了学习到的表示空间允许在纹理之间进行平滑插值。与 Gatys 模型在插值过程中产生分块空间混合不同，所提模型生成的纹理是均匀的，其特征在端点之间平滑过渡。

结果

视觉质量： 在测试纹理类（草地、鹅卵石、星星等）时，使用统计量匹配的所提模型生成的图像在视觉上与 Gatys 模型相似或更优。
FID 分数： 在 9 个测试的纹理类别中，该模型在 8 个类别上的 FID 分数优于 Gatys 模型。作者指出，FID 并不完全适用于纹理评估，因为它依赖于基于 ImageNet 类别的物体识别网络。
对抗性比较：
- Gatys 模型（在没有高通滤波约束的情况下）在被迫与所提模型产生差异时，会产生高频伪影。
- 所提模型在被迫与 Gatys 模型产生差异时，会表现出涉及局部定向结构的特定伪影。
插值： 在所提模型中，在两个纹理表示（ $\mu$ 或 $\lambda$ ）之间进行插值，会产生具有平滑过渡特征的均匀纹理。相比之下，Gatys 模型会产生“双重曝光”或分块混合现象，这表明其表示空间是非凸的。

意义与主张

本文声称提供了一个原则性的、数据驱动的纹理建模框架，弥合了统计纹理理论与现代生成深度学习之间的鸿沟。

效率： 它证明了紧凑的学习统计量（512 个）可以超越大规模的手工设计或迁移学习统计量（~17.7 万个），这表明统计量的具体选择比单纯的数量更重要。
科学用途： 作者强调该模型作为神经科学和心理学工具的潜力。与高维、不可解释的 Gatys 模型或较低质量的手工设计模型相比，这个 512 维的模型在视觉保真度和可解释性之间取得了平衡，可能允许研究人员在一个定义良好的表示空间中表征神经反应。
通用性： 该方法被呈现为可以推广到其他数据模态（例如时间序列声音片段、视频块等）的通用方法，只要这些模态可以被最大熵模型描述，并且使用了适当的网络架构归纳偏置。