遺伝子定量: Salmon や Kallisto などのアラインメント不要ツール、または RSEM などの EM アルゴリズムを用いたツールが主流です。
TE 定量: TEtranscripts(サブファミリーレベル)や Telescope(ロocusレベル)などの専用ツールが用いられます。
しかし、これらのアプローチには重大な課題がありました。
重複領域の扱い: 人間のゲノムの約 45% が TE に由来し、多くの TE が遺伝子のエクソン、イントロン、UTR 内に埋め込まれています。
既存ツールの限界:
TEtranscripts: サブファミリーレベルの定量は可能ですが、個々の TE ロocusの解像度がなく、遺伝子と TE の重複を厳格なヒューリスティックルール(重複するリードを常に遺伝子に割り当てる)で処理するため、真の TE 発現を見逃す可能性があります。
Telescope: ロocusレベルの解像度を提供しますが、遺伝子アノテーションを考慮せず、遺伝子と TE の区別がつかないため、遺伝子由来のリードを誤って TE としてカウントしてしまいます。実際、Telescope の TE シグナルの約 43% が、TE 全体の中でわずか 1.1% しか占めない「エクソン重複ロocus」から来ていることが示されました。
研究者は、異なるツールを複数実行し、結果を調整する必要があり、非効率かつ誤った生物学的結論(偽陽性の TE 再活性化や偽陽性の遺伝子上昇)を招くリスクがありました。
2. 手法:MAJEC の概要
MAJEC は、アラインメント済み BAM ファイルから、遺伝子、転写アイソフォーム、個々の TE ロocusを単一の分析パイプラインで統合的に定量するフレームワークです。
主要な技術的特徴
統合された特徴空間(Joint Feature Space):
遺伝子 GTF アノテーションと RepeatMasker による TE ロocusアノテーションを統合し、すべての転写本と TE ロocusを同時に競合させる EM(期待値最大化)アルゴリズムを実行します。
リードは、遺伝子か TE かを固定的に割り当てるのではなく、データが支持する方に確率的に割り当てられます。
Vignette 1 (False TE Reactivation): In the L1TD1 gene, Telescope falsely reported massive TE upregulation at HAL1ME ($log2FC = +9.1$) driven by host gene reads. MAJEC's joint model redirected these reads to L1TD1 itself ($log2FC = +14.0$), leaving the HAL1ME locus with too few counts to test — correctly recognizing the signal as genic rather than TE-derived.
ケース 2(TEtranscripts の失敗): 非コード RNA LINC01949 内に埋め込まれた TE が実際に再活性化された際、TEtranscripts の厳格なルールにより、そのシグナルが宿主遺伝子に吸収され、偽陽性の遺伝子上昇として検出されました。MAJEC は、宿主遺伝子のスプライス証拠が欠如していることを利用し、リードを正しく TE ロocusに割り当てました。