CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CLEAR-Mamba 的新系统，它就像是一位超级眼科医生助手，专门用来分析眼底血管造影（FFA 和 ICGA）图片，帮助诊断各种眼部疾病。

为了让你更容易理解，我们可以把这项技术想象成在管理一个繁忙的医院眼科门诊。

1. 以前的痛点：为什么旧方法不够好？

想象一下，以前的眼科诊断系统就像是一个刚毕业、只看过教科书的学生：

只懂静态，不懂动态：眼底造影是一连串动态的视频（就像看河流流动），但旧系统只把它当成一张张静止的照片看，错过了血管“流动”和“渗漏”的关键过程。
太自信，容易翻车：旧系统即使看不懂，也会给出一个“我很确定”的答案（比如 99% 的概率是某种病），这在实际医疗中非常危险，因为医生可能会因此误诊。
缺乏灵活性：面对不同设备拍出来的照片，或者不同种类的眼病，旧系统往往“水土不服”，换个环境就表现不佳。

2. CLEAR-Mamba 的三大绝招

为了解决这些问题，研究团队给这个 AI 助手装上了三套“超能力”装备：

第一招：Mamba backbone（像“超级速记员”）

比喻：以前的 AI 看视频像是一个个片段地看，记不住前因后果。Mamba 就像一个拥有超强记忆力的速记员，它能快速浏览整段血管造影视频，记住从开始到结束血管里血液流动的完整故事。
作用：它能高效地捕捉长距离的时间依赖关系，比如血管早期充盈和晚期渗漏的细微变化，这是诊断的关键。

第二招：HaC 模块（像“私人定制教练”）

比喻：想象 AI 是一个通用教练，但每个病人的情况都不同。HaC 就像一个能根据病人实时状态调整战术的私人教练。当它看到一张新的眼底图时，它会瞬间“生成”一套最适合这张图的参数，告诉 AI 该怎么看这张图。
作用：这让模型变得非常灵活，能适应不同设备、不同病情的变化，就像教练能随时调整战术应对不同的对手。

第三招：RaP 模块（像“谨慎的质检员”）

比喻：这是最酷的一点。以前的 AI 像个“盲目自信的赌徒”，RaP 则像一个谨慎的质检员。它不仅给出诊断结果，还会告诉你“我有多大的把握”。
- 如果它很有把握，它会说：“这是糖尿病视网膜病变，我有 90% 的把握。”
- 如果它看不太清（比如图片模糊或病情复杂），它会说：“这个病例有点难，我的把握只有 40%，建议人类医生亲自复核。”
作用：它引入了“不确定性”概念。在医疗中，知道“什么时候该停下来求助”比“盲目自信”更重要。这大大降低了误诊风险，让 AI 更值得信任。

3. 他们做了什么特别的数据工作？

为了训练这个 AI，研究团队没有只用公开的小数据集，而是像整理一座巨大的图书馆一样：

海量数据：他们收集了来自医院的 1.5 万多张眼底造影图片，涵盖了43 种不同的眼病（从常见的糖尿病视网膜病变到罕见病）。
自动化流水线：这些图片原本都在 PDF 报告里，混杂着文字和隐私信息。他们开发了一套自动机器人流程（多智能体系统），自动把图片抠出来、把名字打码、把左右眼分清楚，甚至把一张图里两只眼的不同病情分开标注。这就像给图书馆做了一次彻底的数字化整理。

4. 结果怎么样？

在实验中，CLEAR-Mamba 的表现就像一位经验丰富的老专家：

更准：在识别 43 种眼病时，它的准确率比现有的各种先进模型（包括之前的 Mamba 模型）都要高。
更稳：面对没见过的新数据，它不容易“发疯”或乱猜。
更可信：它能准确判断自己什么时候“拿不准”，从而把疑难杂症交给人类医生处理，实现了人机协作的最佳状态。

总结

简单来说，CLEAR-Mamba 就是一个既懂动态视频、又能灵活适应、还懂得“知之为知之，不知为不知”的 AI 眼科助手。

它不仅仅是在做分类，更是在建立一种可信赖的医疗 AI 新标准：在追求准确的同时，把“安全性”和“可解释性”放在首位，让医生敢用、患者放心。这为未来 AI 真正走进医院、辅助医生看病打下了坚实的基础。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心任务：
利用计算机辅助诊断（CAD）对眼科血管造影图像（主要是荧光素眼底血管造影 FFA 和吲哚菁绿血管造影 ICGA）进行多疾病分类。

现有挑战与局限性：

时序信息利用不足： 现有的方法多将血管造影视为静态图像，忽略了其作为“序列帧”所蕴含的血流动力学动态变化（如早期充盈到晚期渗漏）和病灶演变过程。
单模态与多模态的矛盾： 虽然多模态融合（如结合 OCT、CFP）是趋势，但在临床常规中，单模态（仅 FFA 或 ICGA）检查更为常见。现有单模态方法难以捕捉长程依赖，且泛化能力弱。
模型架构局限：
- CNN： 感受野有限，难以捕捉长距离的时序依赖。
- ViT (Vision Transformer)： 计算和内存开销大，难以实时部署。
- Mamba (SSM)： 虽然能高效处理长序列，但直接应用于医疗领域时，缺乏针对特定病例的自适应能力和不确定性估计。
可靠性与泛化性瓶颈：
- 置信度误用： 传统的 Softmax 分数常被误用为置信度，导致在噪声或分布外数据上产生“过度自信”的错误预测。
- 泛化性差： 现有模型多针对单一疾病（如仅糖尿病视网膜病变），在复杂的多疾病临床场景下性能下降。
- 数据稀缺与不平衡： 缺乏大规模、覆盖多种疾病且包含完整时序序列的眼科血管造影数据集。

2. 方法论 (Methodology)

作者提出了 CLEAR-Mamba 框架，旨在解决上述问题。该框架基于 MedMamba 骨干网络，并集成了三个核心创新模块：

2.1 骨干网络：MedMamba (Efficient Spatio-Temporal Modeling)

采用 MedMamba 作为基础架构，利用视觉状态空间模型（VSSM）和 2D 选择性扫描（SS2D）机制。
优势： 能够以线性复杂度高效地捕捉图像中的局部细节和长程全局依赖（包括时序动态），适合处理高分辨率的血管造影序列。

2.2 核心组件一：HaC (Hyper-adaptive Conditioning)

功能： 基于超网络（HyperNetwork）的自适应条件层。
机制： 根据输入特征分布动态生成模型参数（如仿射变换因子 $\gamma, \beta$ 或低秩适配器参数）。
作用： 实现轻量级的样本级自适应（Instance-specific adaptation）。它允许模型在不进行显式微调的情况下，根据具体病例的特征（如不同设备、不同病灶形态）动态调整特征表示，从而显著提升跨域适应性和多疾病分类能力。

2.3 核心组件二：RaP (Reliability-aware Prediction)

功能： 基于证据学习（Evidential Learning）的可信预测方案。
机制：
- 将分类头替换为输出 Dirichlet 分布 参数（证据 $e$ ）的模块，而非直接输出确定性 Logits。
- 训练目标结合了似然函数和 KL 散度正则化，鼓励模型在证据不足时表达不确定性。
作用：
- 校准置信度： 输出校准后的概率和不确定性度量（如预测熵 $H(\hat{p})$ 和总证据 $S$ ）。
- 风险感知： 能够识别低置信度样本，支持在临床中将这些“模糊”病例转诊给人类专家审查（Deferral），避免过度自信的错误决策。

2.4 数据处理流水线

构建了一个多智能体（Multi-Agent）数据引擎，从原始 PDF 临床报告中自动提取、匿名化、对齐图像与文本标签，并处理双眼图像中的病灶分割问题，最终构建了高质量数据集。

3. 关键贡献 (Key Contributions)

方法创新 (CLEAR-Mamba)：
- 提出了首个结合 MedMamba（高效时序建模）、HaC（超网络自适应）和 RaP（证据学习不确定性量化）的统一框架。
- 解决了单模态血管造影中时序动态利用不足、模型适应性差及预测不可靠的三大难题。
数据集构建 (Large-scale Dataset)：
- curated 了一个大规模、单模态、多序列的眼科血管造影数据集。
- 规模： 包含 15,524 张有效图像，覆盖 43 种眼部疾病类别（含健康对照组）及完整的 FFA/ICGA 时序序列。
- 特点： 真实反映临床长尾分布（Long-tailed distribution），填补了多疾病时序血管造影数据的空白。
实验验证与性能提升：
- 在自建数据集及三个公开基准（RetinaMNIST, OCT-C8, Harvard-GDP）上进行了广泛验证。
- CLEAR-Mamba 在准确率（OA）、F1 分数和 AUC 上均显著优于 CNN、ViT 及原始 MedMamba 基线模型。
- 证明了其在多疾病分类、跨域泛化及不确定性校准方面的优越性。

4. 实验结果 (Results)

4.1 自建数据集表现 (In-house FFA/ICGA Dataset)

对比基线： 包括 ResNet, ViT (DINOv3), MambaVision, MedViT, MedMamba 等。
主要指标：
- CLEAR-B (最大规模) 取得了 59.06% 的总体准确率 (OA) 和 0.836 的 AUC。
- F1 分数 达到 22.71%，相比最强的 MedMamba-X 基线提升了约 +6-8%。
- 特异性 (Specificity) 保持在 98.95% 以上，表明模型在区分健康与病变方面非常稳健。
消融实验：
- 单独使用 HaC 会导致模型对错误预测过度自信（Overconfident）。
- 单独使用 RaP 会导致模型过于保守。
- 两者结合 实现了最佳的校准效果，正确样本的置信度与错误样本的置信度分离度最大。

4.2 公开数据集泛化能力

OCT-C8 (8 类视网膜疾病)： CLEAR-S 取得了 94.5% 的 OA 和 0.9961 的 AUC，超越了所有 CNN 和混合架构基线。
Harvard-GDP (青光眼进展预测)： 在单模态设置下，CLEAR 取得了 0.91 的准确率，优于所有现有的多模态融合模型，证明了其强大的时序特征提取能力。
RetinaMNIST (糖尿病视网膜病变分级)： CLEAR-B 取得了 56.8% 的 OA，优于 MedMamba 和其他 AutoML 方法。

4.3 可解释性与案例分析

t-SNE 可视化： CLEAR 的特征嵌入在 43 类分类任务中表现出更紧密的类内聚类和更清晰的类间分离。
不确定性分析： 案例显示，对于模糊病例（如葡萄膜炎），模型能输出低置信度（Top-1 概率 0.17）和高不确定性（Total Uncertainty ≈ 3.49），提示需要人工复核，而非盲目给出错误的高置信度预测。

5. 研究意义 (Significance)

临床实用性提升： CLEAR-Mamba 提供了一种平衡泛化性（适应多疾病、多设备）和可靠性（不确定性估计、风险感知）的解决方案，更符合临床实际工作流（单模态检查为主、需人工复核模糊病例）。
填补数据空白： 构建的大规模多疾病时序血管造影数据集为后续眼科 AI 研究提供了宝贵的资源，推动了从单病种向多病种综合诊断的转变。
技术范式创新： 将状态空间模型（Mamba）与超网络自适应及证据学习相结合，为医疗影像分析中的长序列建模和可信 AI 决策提供了新的技术路径。
落地潜力： 该框架不仅提升了诊断精度，还通过不确定性量化实现了“人机协同”的潜在能力（即模型知道何时该让人类医生介入），对于高风险的医疗场景至关重要。

总结： CLEAR-Mamba 通过架构优化（MedMamba + HaC）和训练策略创新（RaP），成功解决了眼科血管造影分类中的时序建模难、泛化性差和预测不可靠三大痛点，为构建可信赖的医疗 AI 系统提供了强有力的支持。