Single Pixel Imaging and Compressive Sensing: A Practical Tutorial

想象一下，你想给一只狗拍张照片，但你没有像手机那样拥有数百万个微小传感器（像素）的高级相机。相反，你只有一个单一的光敏传感器——一个只能告诉你总共有多少光线射入的“水桶”，但它无法分辨这些光是从哪里来的。

这就是单像素成像 (Single Pixel Imaging, SPI) 的核心思想。这听起来似乎不可能：仅凭一个传感器如何拍出一张照片？答案在于利用数学和光影模式进行一场巧妙的“猜谜与验证”游戏。

以下是本文如何通过简单的类比来解释这一过程的拆解。

1. 设置：影子戏游戏

想象一下，你想拍摄的对象（那只狗）正被一台投影仪照亮。但投影仪并不是直接投射狗的面孔，而是向狗投射一系列掩模 (Masks) 或图案 (Patterns)。

掩模： 想象一个带有孔洞的模板。有时孔洞呈网格状，有时是随机的点，有时看起来像棋盘格。
水桶： 每当你闪烁一次图案，穿过狗和掩模的光就会击中你的单一“水桶”传感器。传感器只会说：“好的，这个图案让进来了 50 个单位的光。”
诀窍： 通过闪烁数百个不同的图案并记录下每个图案的总光量，你收集到了足够多的线索，可以通过数学方法重建出狗的完整图像。这就像是在解一个谜题，虽然你只知道每块碎片的总重量，不知道它们的形状，但你知道这些碎片是如何排列的。

2. “压缩”的秘密：走捷径

通常情况下，为了获得清晰的照片，你可能需要闪烁 1,000 个不同的图案（测量值）来构建一张 32x32 像素的图像。这非常耗时。

压缩感知 (Compressive Sensing) 是让你跳过大部分步骤的魔术技巧。论文解释说，因为图像通常具有“稀疏性”（意味着它们不是随机噪声；它们有平滑的区域和清晰的边缘），所以你不需要全部 1,000 个线索。你可能只需要 200 或 300 个。

类比： 想象你在试图通过听整张专辑来猜一首歌。压缩感知就像是只听了副歌和关键段落，就能哼出整首歌，因为你了解歌曲的结构。论文表明，通过使用聪明的数学方法，你可以用更少的测量次数获得高质量的图像，从而使过程更快。

3. 图案：哪种“掩模”效果最好？

论文测试了不同类型的图案（称为“基底”，Bases）以观察哪些能在最少的测量次数下提供最好的图像。

“自然”顺序： 想象逐行、逐页地阅读一本书。这是排列图案的标准方式。论文发现，这种方式往往会让图像看起来有点“块状化”或重复，就像质量很差的复印件。
“沃尔什 (Walsh)”顺序： 这就像是根据图案的“繁忙程度”进行组织，从简单的图案开始，逐渐过渡到复杂的图案。论文发现，对于传统的数学方法，这种方式是表现最好的。它起到了低通滤波器的作用，这意味着即使在丢失大量数据的情况下，它也能保持狗的大体轮廓清晰。
随机图案： 这些就像是在黑板上掷飞镖来决定在哪里设置孔洞。令人惊讶的是，这些图案也表现得非常好，尤其是与人工智能结合使用时。

4. 两种解谜方法

一旦你有了光强测量值，你就需要将它们还原成图像。论文对比了两种方法：

方法 A：确定性数学（细心的会计师）

这使用严格的数学公式（如 $\ell_1$ 最小化）来解决谜题。

运作方式： 它就像一个非常细心的会计师在尝试平衡账本。它效果很好，但计算起来比较慢且繁重。
结果： 论文显示，使用 Hadamard-Walsh 图案配合这种数学方法，可以得到最清晰的图像。即使在数据量较低时，它也能很好地保留狗的整体形状。

方法 B：深度学习（快速的学习者）

这使用一个经过“训练”的简单人工智能（神经网络）。

运作方式： 想象教一个孩子识别狗，方法是给他们看 60,000 张狗的照片。一旦孩子学会了规律，即使图片模糊或不完整，他们也能瞬间识别出是一只狗。
结果： 论文发现，对于 AI 来说，随机图案实际上比有序图案效果更好。因为 AI 在训练过程中学习了数据的“规则”，它可以非常有效地填补随机图案留下的空白。
代价： AI 是一个“专才”。你必须为每一个特定的设置训练一个特定的 AI（例如，一个针对 10% 数据的 AI，另一个针对 20% 数据的 AI）。你不能用同一个 AI 处理所有情况。

5. 总结

论文得出结论：

对于标准实验： 使用 Hadamard-Walsh 图案配合标准数学。它可靠且能保持图像结构的清晰。
对于速度和 AI： 使用 随机图案 配合经过训练的神经网络。它可以从极少的数据（低至常规测量值的 10%）中重建图像，但需要大量的预先训练。
实用性： 作者提供了免费的计算机代码（Python Notebooks），以便任何人都可以尝试这些方法，无论使用的是合成数据还是真实的实验数据。

简而言之，本教程展示了如何通过闪烁巧妙的图案，仅用一个光敏传感器来拍摄照片，并提供了实现这一目标的“秘籍”（数学和 AI），让过程既快速又清晰。

技术摘要：单像素成像与压缩感知：实用教程

问题陈述
传统成像依赖于二维探测器阵列（CCD 或 CMOS）来捕获空间强度分布。然而，这些传感器在非常规波长下的效率较低或无法使用，且成本可能较高。单像素成像（SPI）提供了一种替代方案，它利用单个光电探测器（“桶探测器”）对空间调制的光场进行采样。虽然 SPI 能够在阵列传感器失效的频谱区域实现成像，并在噪声环境下提高信号收集能力，但从序列测量中重建图像存在计算挑战。使用全测量基底的传统重建是数据密集型的，且标准的压缩感知（CS）重建（通过 $\ell_1$ 最小化）计算成本可能很高，甚至可能比数据采集过程本身还要慢。本教程旨在解决 SPI 的实际实现、测量基底的选择，以及确定性方法与深度学习重建方法的比较，以实现更快速、高质量的成像。

方法论
本文概述了 SPI 的实验和计算框架：

实验设置： 系统采用数字微镜器件（DMD）或空间光调制器（SLM）来顺序调制输入光场，使其具有正交的测量模式。透镜将调制后的光投影到单个光电二极管上，该二极管集成每个模式的总强度。输入场 $x$ 与测量信号 $y$ 之间的关系定义为 $y = \Phi x$ ，其中 $\Phi$ 是测量基底。
测量基底： 研究评估了几种正交基底：
- 规范（单位）基底 (Canonical/Identity)： 直接对空间元素进行采样。
- 哈达玛 (Hadamard) 基底： 由 $\pm 1$ 条目组成。文中讨论了自然排序（Natural ordering）、沃尔什排序（Walsh ordering，按频率排序）以及“切蛋糕”排序（Cake-cutting ordering，按空间复杂度排序）。特别强调了一种通过利用全正第一行来从单次二进制采集中重建负分量的策略，用于在 SLM/DMD 上实现哈达玛模式，从而减少测量时间。
- 随机高斯 (Random Gaussian) 基底： 使用任意维度并采样广泛的空间频率范围。
重建算法：
- 确定性 CS： 本文比较了使用迭代软阈值法（ISTA）的基底追踪（Basis Pursuit, BP）和 SPGL1 工具包（包含基底追踪去噪和 LASSO）。这些方法通过求解 $\ell_1$ 最小化问题，从欠采样数据（ $M < N$ ）中恢复稀疏信号。
- 深度学习： 采用一种基于简单线性神经网络（单层全连接层）的有监督回归方法。网络通过配对数据集（CIFAR-10）进行训练，旨在将压缩测量值 $y$ 映射到重建图像 $x$ 。这使得计算负担转移到了训练阶段，从而允许在标准 CPU 上实现毫秒级的重建。

主要贡献

实践实现指南： 教程提供了全面的实验设置指南，包括处理哈达玛基底中的正/负值以及处理与大型矩阵相关的内存限制问题。
基底系统比较： 本研究严格评估了不同的排序方案（自然排序 vs. 沃尔什排序 vs. 切蛋糕排序）以及不同基底类型（哈达玛 vs. 随机高斯）如何影响不同压缩率下的重建质量。
算法基准测试： 本工作将确定性 CS 算法（基础 BP、SPGL1 BP、SPGL1 LASSO）与深度学习方法进行了比较，分析了它们的性能指标（PSNR、RMSE、SSIM）和计算权衡。
可复现性： 作者提供了配套的 Python Notebook（Google Colab），允许读者复现结果、训练模型并将其方法应用于自己的实验或合成数据。

结果

基底排序： 对于确定性重建，哈达玛-沃尔什 (Hadamard-Walsh) 排序表现最佳，在 20–25% 的压缩率下能有效充当低通滤波器，保留全局图像结构。自然哈达玛排序表现最差，因为缺失的频率分量会导致垂直重复现象。随机高斯和切蛋糕排序产生的结果噪声较多，但同时采样了多个频率域。
算法性能： 在确定性方法中，SPGL1 基底追踪 (Basis Pursuit) 算法提供了最高的保真度。SPGL1 LASSO 算法引入了平滑效应，减少了超像素伪影，但由于模糊现象降低了相似性指标（PSNR、SSIM）。
深度学习 vs. 确定性方法： 深度学习重建在低压缩率下表现出优越的性能。具体而言，在深度学习背景下，随机高斯基底的表现优于哈达玛变体（10%–50% 压缩率），这可能是因为随机矩阵广泛的频率内容使神经网络能够学习到更有效的权重分配。然而，深度学习模型是任务特定的，需要针对每个压缩率和基底配置分别进行训练。
压缩率： 确定性方法通常需要 20–25% 的压缩率才能显现出测试图像的主体形状，而使用随机高斯基底的深度学习可以在 5–10% 的压缩率下分辨特征。

意义与主张
本文将其定位为一份实用的教程，而非全新的理论突破。其主要意义在于：

降低门槛： 通过提供开源代码和详细的实验协议，降低了希望实现 SPI 和压缩感知的研究人员的入门门槛。
阐明权衡： 文中明确指出，虽然深度学习在低压缩率下提供了速度和性能优势，但它缺乏确定性算法那样的通用适应性，后者不需要针对新的测量配置进行重新训练。
实验指导： 它为实验人员提供了具体的建议，例如建议在深度学习训练期间加入人工噪声，以防止在应用于现实世界数据时出现伪影。

作者谦虚地总结道，虽然深度学习可以实现高速、实时应用，但方法的选择在很大程度上取决于具体应用的约束条件（例如：计算资源、对通用性的需求以及可用训练数据的多少）。本教程旨在通过提供必要的复现和适配工具，促进这些技术在包括活体（in vivo）成像在内的多样化领域中的应用。