De novo protein discovery in non-model organisms

2 つの異なる図書館に本が収蔵されていると想像してください。しかし、どちらの図書館にも目次がなく、本はあなたが話せない言語で書かれています。通常、これらを比較するには、熟練した翻訳者や参照ガイドが必要です。しかし、それらなしでこれらの図書館を比較したいとしたらどうでしょうか。

これが、参照ゲノム（マスター設計図）が利用できない植物を研究しようとした科学者たちが直面した問題です。これを解決するため、彼らは「plant」（Parallel Annotation of Transcriptomes の略）と呼ばれる新しいデジタルツールを開発しました。

以下に、簡単な比喩を用いてその仕組みを説明します。

コーヒーの濾過の比喩
コーヒーの粉と水が混ざった複雑な混合物を考えてください。中身を理解するために、濾過器を使って液体と固体を分離するかもしれません。「plant」の方法もこれに似ていますが、物理的な濾過器の代わりにコンピュータ・プログラムを使用します。植物の遺伝コード（RNA-seq）から得られた散漫で生々しいデータを「濾過」し、タンパク質を構成する特定の構成要素を分離します。

レゴブロックの比較
通常、科学者は特定の遺伝子を見て植物を比較しますが、これは完全に異なる命名システムを使用する 2 つの異なるレゴの組み立て説明書を比較しようとするようなものです。それらを一致させるのは困難です。

代わりに、「plant」は特定の組み立て説明書を無視し、レゴブロックそのもの（普遍的なタンパク質ドメイン）に注目します。たとえ城セットか宇宙船セットかに関わらず、「2x4 の赤いブロック」は同じであるのと同様に、これらのタンパク質の構成要素は異なる種を超えて普遍的です。ある植物と別の植物で、それぞれの「ブロック」がどれだけ使用されているかを数えることで、このツールは植物が異なる種であっても、それらを直接比較できます。

実験
研究者たちは、「1000 Plants」プロジェクトのデータを用いて、いくつかの種類の Selaginella（古代植物の一種）でこれをテストしました。彼らは主に 3 つのことを行いました。

パズルの完成: 生々しい遺伝データをパズルのピースのように組み立てました。
部品の特定: これらのピースを巨大なデータベース（Pfam）と照合し、どのような「レゴブロック」（タンパク質構造）であるかを確認しました。
部品の計数: 各ブロックがどれだけ使用されているかを測定しました。

結果
「何であるか」（タンパク質構造）と「どれくらいか」（量）を組み合わせることで、彼らは植物内でどのタンパク質構造が活性化されているかを正確に把握できました。彼らはこれらの普遍的なブロックに焦点を当てたため、マスター設計図がなくても植物を公平に比較できました。

また、特定の種にのみ現れる独自の「ブロック」を発見し、それらをそれらを作った正確な遺伝子まで遡って追跡することができました。最後に、これらのタンパク質部品が異なる植物間でどのように分布しているかを可視化するためのカラフルな「バブルプロット」（一種のチャート）を作成し、一目でパターンを把握しやすくしました。

要するに、この方法により、科学者は特定の遺伝言語の違いに迷い込むのではなく、共有された普遍的な構成要素に焦点を当てることで、異なる植物の内部機構を比較することが可能になります。

技術的サマリー：非モデル生物における新規タンパク質の発見

関連論文