`pandemonium`: High Dimensional Analysis in Linked Spaces

想象一下，你正在尝试解开一个巨大而复杂的谜题，其中包含两组不同的线索。一组线索描述你输入的内容（就像食谱中的配料或机器上的设置），另一组线索描述输出的结果（就像蛋糕的味道或机器的产出）。

问题在于，配料和可能的口味种类繁多，仅凭查看电子表格根本无法看出其中的模式。你需要一种方法来观察这些配料如何共同创造出特定的口味。

这正是 pandemonium R 包所做的。它是一个数字“魔法窗口”，帮助研究人员连接两个高维世界之间的关联。

以下是其工作原理，使用简单的类比说明：

1. 两个房间（链接空间）

将你的数据想象成两个独立的房间：

房间 A（聚类空间）： 在这里，你根据相似性对事物进行分组。想象一下按颜色和图案整理一堆混杂的袜子。
房间 B（链接空间）： 在这里，你查看原始细节。想象一下观察同样的袜子，查看它们是由什么面料制成的，或者是在哪里购买的。

通常，研究人员先查看房间 A，然后走到房间 B，试图猜测它们之间的关系。pandemonium 在两个房间之间放置了一面巨大的双向镜子。当你在房间 A 中指向一组袜子时，镜子会立即在房间 B 中高亮显示完全相同的袜子，向你展示它们的 fabric 和产地。

2. 魔法透镜（聚类）

该工具首先在房间 A 中组织数据。它使用一种称为层次聚类的方法，就像折叠地图一样。你可以缩小以查看几个大区域（如大陆），也可以放大以查看微小的社区（如街道）。

你可以说：“向我展示 3 个大组”，或者“向我展示 10 个小组”。
当你更改组的数量时，该工具会立即更新两个房间中的视图。

3. 移动相机（漫游与投影）

由于数据维度太高，无法绘制在平面的纸上，该工具使用两种特殊的相机技巧，将 3 维（或 100 维）的世界压扁到 2 维屏幕上：

非线性透镜（UMAP/t-SNE）： 这就像一面哈哈镜，它挤压和拉伸数据，以显示哪些点在自然上是彼此接近的，即使它们在原始数值中相距甚远。
动态漫游： 这就像一架无人机在数据点云中飞行。与其看一张静态照片，你得到的是一段视频，它会缓慢旋转数据云，让你看到如果只从一个角度观察就会错过的隐藏形状和空隙。

4. “画笔”（交互式选择）

这是最强大的功能。想象你有一支画笔。

你在“无人机视频”（房间 A）中绘制特定的点簇。
瞬间，这些相同的点在“静态地图”（房间 B）中亮起。
这让你能够提出这样的问题：“为什么在输出（房间 A）中看起来相似的所有这些点，在输入（房间 B）中却具有如此不同的温度和湿度水平？”

论文中的现实世界示例

作者将这一工具测试于两个截然不同的问题，以展示其工作原理：

示例 1：自行车租赁机器（机器学习）

设置： 他们拥有一个计算机模型，该模型根据天气（温度、风速、降雨）预测人们将租赁多少辆自行车。
问题： 他们想知道哪些天气组合会使模型表现异常或预测良好。
解决方案： 他们将模型的内部“思维”（激活值）分组为簇。然后，他们利用镜子查看这些组的天气数据。他们发现，温度和湿度的特定组合是区分各组的主要驱动因素。他们还检查了模型做出的“错误”（残差），发现模型在所有地方实际上都表现良好，没有任何奇怪的盲点。

示例 2：粒子物理谜题（物理学）

设置： 物理学家拥有一个复杂的模型，包含 150 个旋钮（参数），他们通过调节这些旋钮来匹配关于亚原子粒子的实验数据。
问题： 面对 150 个旋钮，不可能知道哪些实际上很重要。
解决方案： 他们选取了一组较小的 6 个旋钮和 16 个测量值。他们将看起来相似的测量值分组。然后，他们查看这些组的“旋钮”。该工具揭示，只有两个特定的旋钮（在六个之中）负责创建不同的组。其他四个旋钮似乎对结果影响不大。

为什么这很重要

在像 pandemonium 这样的工具出现之前，弄清楚这些联系就像蒙着眼睛在干草堆里找针。你可能会猜，但你无法看见模式。

这个包不仅仅是处理数字；它让你能够探索。它允许你：

按相似性对数据进行分组。
立即查看这些组在原始数据中的样子。
旋转和缩放数据以发现隐藏的结构。

它的设计初衷是简单到初学者可以用鼠标和屏幕使用，同时又灵活到专家可以插入自己的自定义数学公式。它将令人困惑的高维数据混乱转化为清晰、互动的故事。

技术摘要：pandemonium：链接空间中的高维分析

问题陈述
数据分析经常遇到涉及大量预测变量和响应变量的场景，从而形成两个内在链接的高维空间（输入空间和输出空间）。虽然可视化方法对低维数据行之有效，但传统技术往往难以揭示跨越这两个领域的关系。现有工具通常专注于单一空间或单一空间内聚类结果的交互式探索，使得人们难以推理预测变量空间中的结构如何与响应变量空间中的模式相关联，反之亦然。

方法论
本文介绍了 pandemonium，这是一个 R 语言包，旨在通过将层次聚类分析与交互式链接可视化相结合，来探索链接的高维空间。该方法论基于一个包含 $n$ 个观测值的数据集，这些观测值分布在两个空间中：一个聚类空间（变量 $Y$ ）和一个链接空间（变量 $X$ ），并可选地包含额外信息（ $Z$ ）。

核心工作流程包括：

坐标变换：原始数据通过用户定义或预定义的函数（例如标准化，或利用方差 - 协方差矩阵的变换）转换为坐标表示（ $\tilde{Y}, \tilde{X}$ ）。
层次聚类：在聚类空间内对观测值进行层次聚类。该包通过嵌套聚类选择支持可重复的结果，允许用户调整聚类数量、距离度量和连接方法。
链接可视化：生成的聚类同时在聚类空间和链接空间中进行可视化。可视化框架采用：
- 非线性降维（NLDR）：如 t-SNE 和 UMAP 等技术，将高维数据投影到二维空间。
- 动画漫游（Animated Tours）：通过 tourr 和 detourr 包生成的线性投影（例如，大漫游、引导漫游、切片漫游）。
- 链接刷选（Linked Brushing）：使用 crosstalk 包实现，允许在一个视图（例如，聚类空间的 UMAP 图）中进行选择（刷选）时，立即高亮显示所有其他视图（例如，链接空间的漫游）中对应的点。
统计指导：该包提供聚类统计量（例如，Calinski-Harabasz 指数、组内/组间比率、聚类半径和基准距离），以协助选择最佳聚类数量。

主要贡献

链接空间的通用框架：与以往专注于在单一领域内优化聚类的工具不同，pandemonium 定义了一个通用框架，用于在交互式更改聚类设置的同时探索两个相连的空间。
模块化架构：基于 shiny 构建，该包允许用户注入自定义函数以进行坐标变换、分数计算和降维方法，从而将其适用范围扩展到默认实现之外。
集成的视觉分析：它在单一界面中独特地集成了层次聚类、NLDR 和动画漫游，使得能够将聚类结构与链接空间的几何形状进行比较。
可重复性：该包包含 makePlots() 和 writeResults() 函数，用于复现基于图形用户界面（GUI）的分析，并在交互式会话之外以编程方式导出结果。

结果与案例研究
本文通过两个不同的案例研究验证了该包：

机器学习解释：该包被用于分析一个预测自行车租赁数量的神经网络模型。通过对潜在激活（聚类空间）进行聚类并将其映射到输入变量（链接空间），作者发现特定的输入组合（温度和湿度）驱动了不同的激活模式。链接视图揭示，虽然模型残差分布良好，但激活空间包含对应于 ReLU 激活函数的线性结构，这些结构仅在输入空间中并不明显。
高维物理建模：该包分析了一个复杂的粒子物理模型，该模型包含 150 个参数，被缩减为一组六个预测变量和十六个响应变量。利用基于实验协方差矩阵的坐标变换，作者对响应空间进行了聚类。链接可视化成功识别出特定的预测变量（ $X_1$ 和 $X_3$ ）负责分离聚类，而其他变量（ $X_6$ ）则显示无依赖性。这证明了该工具在高维参数空间中隔离相关预测变量的能力。

意义与局限性
本文将 pandemonium 定位为一种探索性工具，弥合了链接领域中统计聚类与视觉分析之间的差距。其意义在于使分析师能够形成直观假设，探讨一个空间中的结构（例如，模型预测或潜在变量）如何与另一个空间中的结构（例如，原始输入或实验可观测量）相关联。

作者指出了适度的局限性：

可扩展性：由于漫游的计算时间限制以及高维数据固有的视觉混乱，该工具仅限于中等规模的应用。对于非常大的数据集，建议在探索之前进行变量选择或线性降维。
灵活性与简单性：虽然该包为高级用户提供了模块化输入，但为了保持对新手用户的简洁性，某些可视化选项是固定的。
未来工作：作者建议需要进一步开发，通过更广泛的应用测试来识别局限性，并可能扩展模块化以应对更复杂的使用案例。

本文结论认为，pandemonium 提供了一个有价值且易于访问的界面，用于研究高维空间的相互依赖性，适用于从机器学习到理论物理的各个领域。