Multi-view biclustering via non-negative matrix tri-factorisation

该论文提出了一种名为 ResNMTF 的新型多视图双聚类方法,基于非负矩阵三分解技术,能够在无需预设簇数量的情况下识别重叠且非完备的双聚类,并扩展了轮廓系数为“双轮廓系数”以辅助超参数调优与可视化。

Ella S. C. Orme, Theodoulos Rodosthenous, Marina Evangelou

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ResNMTF 的新方法,以及一个用来评估这种新方法好坏的“新尺子”,叫做 双轮廓分数(Bisilhouette Score)

为了让你更容易理解,我们可以把这篇论文的研究内容想象成是在整理一个巨大的、混乱的图书馆

1. 背景:混乱的图书馆(多视图数据)

想象一下,你有一个超级图书馆,里面存放着成千上万本书(,比如病人、文章、细胞),每本书里都有成千上万个单词或特征(,比如基因、话题、蛋白质)。

  • 多视图(Multi-view): 这个图书馆很特别,它有三套不同的目录系统。

    • 第一套目录是按“书名”排的(比如基因表达数据)。
    • 第二套目录是按“作者”排的(比如 DNA 甲基化数据)。
    • 第三套目录是按“出版社”排的(比如蛋白质数据)。
    • 问题: 这三套目录描述的是同一批书,但侧重点不同。有时候,某些书在“书名”目录里很相似,但在“作者”目录里却完全不同。传统的整理方法要么只看其中一套目录(丢失信息),要么强行把三套目录混在一起(容易出错)。
  • 双聚类(Biclustering): 我们不想把整本书都归类,也不想把所有单词都归类。我们想找的是特定的组合

    • 比如:找出“属于特定几类病人(行)”且“表现出特定几组基因(列)”的书。
    • 这就叫“双聚类”:同时把人和特征都分好组。

2. 核心创新一:ResNMTF(智能整理员)

论文提出了一个叫 ResNMTF 的“智能整理员”。

  • 它是怎么工作的?
    想象这个整理员手里拿着三套不同的目录(三个视图)。它不像以前的整理员那样,要么死板地认为所有目录必须完全一致,要么完全不管它们之间的关系。
    • 灵活性: ResNMTF 很聪明,它知道:“哦,在‘书名’目录里,A 书和 B 书很像;但在‘作者’目录里,A 书和 C 书更像。”它允许不同的目录之间有不同的联系
    • 去噪(稳定性分析): 图书馆里有很多噪音(比如乱写的标签)。ResNMTF 会做一个“小测验”:它把书随机打乱一部分,再重新整理。如果某几本书在打乱后还能聚在一起,说明它们是真的有关系;如果一打乱就散了,说明那是噪音,整理员会把它们踢出去。
    • 自动计数: 以前整理员需要有人告诉它“请分成 5 组”。ResNMTF 不需要,它能自己尝试分成 3 组、4 组、5 组……然后选出最舒服的那一种。

3. 核心创新二:双轮廓分数(Bisilhouette Score,新尺子)

在整理完图书馆后,怎么知道整理得好不好呢?

  • 旧尺子的局限: 以前常用的“轮廓分数”(Silhouette Score)就像是用一把直尺去量一堆形状怪异的积木。它假设每个积木(聚类)都是独立的、不重叠的。但在我们的图书馆里,一本书可能同时属于“科幻小说”和“悬疑小说”(重叠),或者有些书根本不属于任何分类(非穷尽)。旧尺子量不准。
  • 新尺子(双轮廓分数): 作者发明了一把特制的软尺
    • 它不仅能量“这一组书是不是很像”(紧凑度),还能量“这一组书和别的组是不是明显不同”(分离度)。
    • 关键点: 它专门针对“书 + 特征”这种双重组合进行了优化。它允许书重叠,也允许有些书没被归类。
    • 作用: 这把尺子不仅能告诉整理员“你整理得不错”,还能帮整理员决定“到底分几组最合适”,甚至能画出图表让人一眼看出哪些组是真正的“好组”,哪些是凑数的。

4. 实验结果:整理员的表现

作者用了很多真实和模拟的数据来测试这个整理员:

  • 合成数据(模拟图书馆): 他们故意制造了一些混乱的图书馆,里面有重叠的组、有噪音。ResNMTF 表现得非常棒,比以前的整理员(如 GFA, iSSVD)更准,更能发现那些隐藏的规律。
  • 真实数据(真实图书馆):
    • 3Sources: 来自三家不同新闻网站(BBC, Reuters, Guardian)的同一批新闻文章。ResNMTF 成功把文章按主题分好了,而且比单独看一家网站更准。
    • TCGA(癌症数据): 来自不同癌症患者的基因和微小 RNA 数据。ResNMTF 成功找出了不同癌症亚型的特征。
    • A549(细胞数据): 单细胞测序数据。ResNMTF 也能很好地处理。

5. 总结:这对我们意味着什么?

简单来说,这篇论文做了两件大事:

  1. 发明了一个更聪明的整理工具(ResNMTF): 它能同时处理多来源的数据,自动发现“谁和谁是一伙的”以及“什么特征定义了这伙人”,而且能自动过滤掉噪音,不需要人预先告诉它分几组。
  2. 发明了一把更精准的尺子(双轮廓分数): 在没人告诉正确答案(无监督学习)的情况下,它能帮我们判断整理得对不对,还能帮我们调整工具的参数。

比喻总结:
以前的方法像是在用单一视角的放大镜看混乱的线团,容易看走眼。ResNMTF 就像是一个拥有 3D 视觉和自动纠错功能的机器人,它能从不同角度(多视图)同时观察线团,自动把纠缠在一起的线头(重叠组)理顺,并且自己判断什么时候该停下来(自动确定组数)。而“双轮廓分数”就是机器人自带的质检员,确保它理出来的每一团线都是整齐且真实的。

这项技术对于医学(找疾病亚型)、新闻分析(找话题趋势)等领域非常有价值,因为它能从海量、复杂、多来源的数据中,自动挖掘出人类难以发现的深层规律。