Rewriting protein alphabets with language models

原著者： Pantolini, L., Studer, G., Engist, L., Pudziuvelyte, I., Pommerening, F., Waterhouse, A. M., Bienert, S., Tauriello, G., Steinegger, M., Schwede, T., Durairaj, J.

公開日 2026-05-22

📖 1 分で読めます☕ さくっと読める

閲覧： bioRxiv ↗PDF ↗

CC BY 4.0

原著者： Pantolini, L., Studer, G., Engist, L., Pudziuvelyte, I., Pommerening, F., Waterhouse, A. M., Bienert, S., Tauriello, G., Steinegger, M., Schwede, T., Durairaj, J.

原論文は CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ⚕️ これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

タンパク質を、非常に複雑で古風な言語で書かれた文章に例えてみてください。長年、科学者たちはこれらの「文章」の間にどのようなつながりがあるかを探り、それらが何をするものか、あるいはどのように構成されているのかを理解しようとしてきました。しかし、この言語はあまりにも複雑で、類似した文章を見つけることは、巨大で混沌とした干し草の山から特定の針を探すようなもので、しかもあまりにも遅すぎて、針を見逃してしまうほどです。

本論文は、万能翻訳機でありながらショートカットとしても機能する、画期的な新ツール「TEA」を紹介しています。その仕組みを、簡単な比喩を用いて説明します。

1. 問題：文字が多すぎる
現在、タンパク質の「文章」は20文字のアルファベットで書かれています。これは機能していますが、この20文字を用いて2つの非常に異なるタンパク質間の類似性を探ろうとすることは、同じ言語の異なる方言で書かれた2冊の書籍から一致点を見つけようとするようなものです。それは遅く、時にはつながりがあまりにも微弱で視認できないこともあります。

2. 解決策：より賢い新しいアルファベット
研究者たちは、数百万のタンパク質文章を読み込み、その隠れたパターンを学習したある種のAI（「タンパク質言語モデル」と呼ばれる）を用いました。そして、コントラスト学習と呼ばれる特殊な手法を用いて、これらの20文字の文章を、TEAと呼ばれる全く新しい、簡素化された20文字のアルファベットに書き換えました。

TEAを別の言語ではなく、極めて効率的なコードとして考えてください。それは、長く曲がりくねった道路地図を、直線的で高速なハイウェイに凝縮するようなものです。AIは、元のタンパク質の「単語」のどの部分が実際につながりを見つけるために重要かを見極め、ノイズを排除しました。

3. 結果：速度と精度の両立
科学者がこの新しいTEAアルファベットを用いてタンパク質の一致を検索すると、両方の利点が得られます。

配列検索の速度: 文字の順序だけを単純に見る従来の簡素な方法と同じくらい高速に動作します。
構造検索の精度: タンパク質の3次元形状を知ることを必要とする手法と同様に、深く隠されたつながり（遠縁相同性）を見つけ出します。

全体像
通常、これらの深いつながりを見つけるためには、タンパク質の3次元形状を知る必要があります（折り紙の折りたたみ状態を見るようなものです）。しかし、TEAはそれを必要としません。AIの学習のおかげで、文字の配列を見るだけでそれを推測できるのです。

本論文は、このツールが現代のAIの進歩と、生物学的研究に科学者が用いる古典的かつ世紀を超えたツールとの間の溝を埋めると主張しています。これにより、研究者は強力な新しいAIの知見を活用して、既存の検索ツールをより高速かつ賢くすることができ、複雑な構造データを待つことなく、新たな生物学的秘密を発見できるようになります。

技術的概要：言語モデルによるタンパク質アルファベットの書き換え

関連論文