An unsupervised framework for comparing SARS-CoV-2 protein sequences using… — 通俗解释

想象 SARS-CoV-2 病毒是一座藏有数百万本不同书籍的巨型图书馆，其中每本“书”都是一套独特的指令序列（一种蛋白质），告诉病毒如何构建自身。多年来，科学家们一直在收集这些“书”，但要在没有目录系统的情况下，从一堆混乱的小说中梳理出模式，无异于大海捞针。

本文提出了一种利用**大语言模型（LLMs）**来组织这些病毒“书”的全新且智能的方法。请将大语言模型想象成一位并非聊天机器人，而是通读世间所有蛋白质书籍的超级聪明图书管理员。这位管理员不仅阅读文字，更能理解故事的“氛围”和结构，即便从未被明确教授过语法规则。

以下是作者如何利用这位管理员解决难题的步骤：

1. 测试图书管理员
首先，研究人员并未只挑选一位管理员，而是测试了多位不同的管理员，以观察谁最擅长理解 SARS-CoV-2 病毒的具体故事。他们旨在找出哪种模型能最有效地将相似的病毒故事归为一类（聚类）或将它们区分开来（分类）。

2. 聚焦病毒的“面孔”
团队决定专门聚焦于病毒的“刺突蛋白”。如果你将病毒想象成一个微小的外星人，刺突蛋白就是它的“脸”——即试图与人类细胞“握手”的部分。由于这是我们的免疫系统最易识别的部分，因此它是研究中最关键的“面孔”。

3. “相似度游戏”（无监督学习）
该方法的核心是一种名为对比学习的巧妙游戏。想象一对双胞胎（孪生神经网络）在玩这样一个游戏：他们被展示两个不同的病毒序列。

游戏要求他们：“如果这两个序列非常相似（如同同一本书的两个副本），就站得近一些。”
“如果它们不同（如同一本悬疑小说与一本食谱），就站得远一些。”
为了衡量相似程度，系统使用一种名为**莱文斯坦距离（Levenshtein distance）**的特定标尺，精确计算将一个序列转换为另一个序列需要更改、添加或删除多少个字符。

这种方法的精妙之处在于它是无监督的。管理员无需老师告知“这是 A 变种，那是 B 变种”。相反，管理员通过反复玩这个相似度游戏，完全自主地学会了这些模式。

4. 最终对决
为了验证新方法是否有效，研究人员在 pandemic 后期阶段的数据集上进行了测试。他们将基于大语言模型的管理员与之前较旧的数据组织方法进行了对比。

结果
新方法获胜。在正确归类新兴病毒变种方面，与大语言模型方法相比，旧方法的准确率得分（称为调整兰德指数）提高了0.2。

结论
该论文得出结论，利用这些先进的语言模型是理解病毒如何变异的一种强大新工具。它证明，将蛋白质序列视为语言，通过让人工智能自主“阅读”模式，我们能够比以往更有效地识别新变种并将其归类。

An unsupervised framework for comparing SARS-CoV-2 protein sequences using LLMs