A transcriptomics-native foundation model for universal cell representation and virtual cell synthesis

本文提出了 xVERSE,一种原生转录组基础模型,它通过结合批次不变表征学习与概率表达谱生成,在表征学习、空间插值及虚拟细胞合成方面均超越现有方法,并能够利用高保真虚拟细胞解决微小数据集分析难题,从而解锁超越传统模型的通用分析能力。

原作者: Jiang, X., Xie, J.

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 xVERSE 的超级人工智能工具,它是专门为理解细胞“语言”(基因表达数据)而设计的。为了让你轻松理解,我们可以把这项技术想象成一位**“细胞世界的全能翻译官兼虚拟建筑师”**。

以下是用通俗语言和创意比喻对这篇论文的解读:

1. 背景:为什么我们需要 xVERSE?

现状: 现在的科学家通过单细胞测序技术,能读取成千上万个细胞的“基因日记”。但是,现有的 AI 模型(比如 scGPT 等)大多是模仿处理人类语言的模型(像 ChatGPT 那样)。
问题: 把细胞数据当成“文字”来处理有个大问题。基因不像单词那样有固定的顺序(先说 A 再说 B),它们更像是一个混乱的、无序的、高维度的“大杂烩”。现有的模型就像是用“读小说”的方法去“读乱码”,结果往往不够精准,甚至不如一些老式的专用工具。而且,它们很难真正“创造”出新的细胞数据。

2. xVERSE 是什么?(核心创新)

xVERSE 是一个**“原生转录组基础模型”**。

  • 比喻: 如果以前的模型是拿着字典去翻译乱码,xVERSE 就是直接听懂了细胞原本的“方言”。它不强行把基因排成句子,而是直接理解基因之间复杂的概率关系(就像理解天气变化的规律,而不是背诵天气预报)。
  • 两大超能力:
    1. 万能翻译官(通用表征): 它能忽略实验中的“噪音”(比如不同实验室、不同机器产生的误差),把不同来源的细胞数据统一到一个标准的“语言”里,让科学家能轻松对比不同研究。
    2. 虚拟建筑师(生成式模型): 这是它最厉害的地方。它能根据已有的细胞样本,凭空“画”出逼真的虚拟细胞。这些虚拟细胞在基因层面和真实细胞几乎一模一样,连最挑剔的专家都分不清真假。

3. xVERSE 的四大绝招(具体应用)

① 消除“方言”隔阂(去批次效应)

  • 场景: 就像不同国家的同一种水果,因为产地不同,颜色深浅不一。科学家想对比它们,但颜色差异(批次效应)会干扰判断。
  • xVERSE 的做法: 它像一位精通多国语言的翻译,能自动忽略产地差异,直接提取水果的“本质味道”。
  • 效果: 在识别细胞类型时,它的准确率比目前最好的模型高了近 18%,比传统的去噪工具也高了 11%。

② 给基因“排座次”(Gene2Cell 评分)

  • 场景: 一个细胞里有几万个基因,但真正决定它身份的只有几十个关键基因。就像在一场大合唱里,只有领唱的声音最重要。
  • xVERSE 的做法: 它能给每个基因打分,告诉科学家哪些是“领唱”(关键基因),哪些是“背景音”(噪音)。
  • 效果: 科学家发现,只用那些高分的“领唱”基因,就能把细胞分得比用所有基因还清楚。这能帮助设计更便宜、更精准的空间测序芯片(只测关键基因,省钱又高效)。

③ 制造“完美替身”(虚拟细胞合成)

  • 场景: 有时候样本太少(比如只有 4 个稀有细胞),就像只有 4 个人投票,很难看出民意。或者有些基因没测到,就像拼图缺了一块。
  • xVERSE 的做法: 它能根据那 4 个细胞,“克隆”出成百上千个虚拟细胞。这些虚拟细胞不是简单的复制粘贴,而是根据生物学规律“生长”出来的,保留了所有复杂的细节。
  • 效果:
    • 填补空缺: 能把稀有细胞的数量放大,让科学家能看清原本看不见的稀有细胞群。
    • 补全拼图: 在空间测序中,如果只测了 500 个基因,xVERSE 能准确“猜”出剩下那 2 万个基因长什么样,准确率比现有方法高出 34%。
    • 以假乱真: 让 AI 去分辨真假细胞,AI 的准确率只有 50%(等于瞎猜),说明虚拟细胞太逼真了。

④ 增强“免疫力”(数据增强与泛化)

  • 场景: 训练一个 AI 模型识别心脏病,如果只给它看“健康人”的数据,它到了“心脏病患者”面前就会傻眼。
  • xVERSE 的做法: 它用虚拟细胞给训练数据“加餐”,模拟各种可能的病理状态。
  • 效果: 经过 xVERSE 增强的模型,在面对从未见过的疾病状态(如心脏移植后的排异反应)时,表现得更稳健、更聪明,预测准确率大幅提升。

4. 总结:这意味什么?

xVERSE 不仅仅是一个工具,它是一个“数据倍增器”。

  • 以前: 科学家想研究稀有细胞,必须去收集更多昂贵的样本,耗时耗力。
  • 现在: 有了 xVERSE,科学家可以在电脑上“无中生有”,用少量的真实样本生成海量的虚拟数据。
  • 比喻: 就像以前画家要画一千幅画,必须找一千个模特;现在有了 xVERSE,只要给画家看一个模特,它就能自动生成一千个神态各异、但都符合解剖学规律的虚拟模特,让画家(科学家)能进行更深入的创作(研究)。

一句话总结: xVERSE 让科学家不再受限于样本数量和实验成本,通过“计算”来扩展生物学实验的边界,加速我们对生命奥秘的探索。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →