De novo protein discovery in non-model organisms

想象一下，你有两个不同的图书馆，里面藏书各异，但两个图书馆都没有目录，而且书籍都是用你不懂的语言写成的。通常，要比较它们，你需要一位精通多语的翻译大师或参考指南。但如果你想在没有任何这些辅助的情况下比较这两个图书馆，该怎么办呢？

这正是科学家们在研究那些没有“参考基因组”（即主蓝图）可用的植物时所面临的问题。为了解决这个问题，他们开发了一种名为plant（代表转录组并行注释）的新型数字工具。

以下是其工作原理，通过一个简单的类比来说明：

咖啡滤纸类比
想象一下咖啡渣和水混合在一起的复杂混合物。为了了解其中包含什么，你可能会使用滤纸将液体与固体分离开来。plant方法的工作原理与此类似，但它使用的不是物理滤纸，而是一台计算机程序。它从植物的遗传代码（RNA-seq）中提取杂乱无章的原始数据，并进行“过滤”，以分离出构成其蛋白质的特定基本构件。

乐高积木比较
通常，科学家通过观察特定基因来比较植物，这就像试图比较两套使用完全不同命名系统的乐高积木说明书。要将它们匹配起来非常困难。

相反，plant忽略了具体的说明书，而是直接观察乐高积木本身（通用蛋白结构域）。正如一块“2x4 红色积木”无论是在城堡套装还是太空飞船套装中都是相同的，这些蛋白质基本构件在不同物种间也是通用的。通过统计一种植物与另一种植物各自使用了多少种“积木”，该工具可以直接对它们进行比较，即使这些植物来自不同物种。

实验过程
研究人员利用“千种植物”项目中的数据，在几种卷柏（一种古老植物）上测试了这一方法。他们主要做了三件事：

组装拼图：他们将原始遗传数据像拼图一样拼接起来。
识别部件：他们将这些片段与一个庞大的数据库（Pfam）进行比对，以确定它们属于哪种“乐高积木”（蛋白质结构）。
统计部件：他们测量了每种积木的使用量。

实验结果
通过结合“是什么”（蛋白质结构）与“有多少”（数量），他们能够确切地看到哪些蛋白质结构在植物中处于活跃状态。由于他们专注于这些通用积木，因此即使没有主蓝图，也能公平地比较这些植物。

他们还发现了一些仅出现在特定物种中的独特“积木”，并能追溯这些积木到生成它们的精确基因。最后，他们创建了一个色彩丰富的“气泡图”（一种图表类型），以可视化这些蛋白质部件在不同植物中的分布情况，让人一眼就能看出其中的模式。

简而言之，这种方法使科学家能够通过关注植物共有的通用基本构件来比较不同植物的内部运作机制，而不是迷失在它们特定遗传语言的差异之中。

技术摘要：非模式生物中的从头蛋白质发现

类似论文