Interpretable and predictive models based on high-dimensional data in ecology and evolution
生態学・進化生物学における高次元データを用いたモデル構築において、過学習の課題を克服し予測精度と変数選択の信頼性を高めるために、9 つの手法をシミュレーションで比較評価し、サンプルサイズや効果の大きさなどのデータ特性が学習の成否に与える影響を明らかにした。
275 件の論文
ゲノミクスは、生命を構成する設計図である遺伝情報を解読し、その働きや多様性を理解するための重要な分野です。この領域では、DNA の配列から病気の原因を突き止める研究から、進化の歴史をたどる調査まで、多岐にわたる発見が生まれています。Gist.Science では、これらの最先端の知見を、専門用語に頼らず誰でも理解できる形でお届けします。
当サイトのゲノミクスカテゴリに掲載される論文はすべて、プレプリントサーバー bioRxiv から提供された最新のものであり、承認前の研究結果も含んでいます。Gist.Science は bioRxiv から届くすべての新規プレプリントを自動的に処理し、専門家が読める詳細な技術的要約と、一般の方も読める平易な解説の両方を生成して公開しています。
以下に、ゲノミクス分野における最新の論文リストを掲載します。
生態学・進化生物学における高次元データを用いたモデル構築において、過学習の課題を克服し予測精度と変数選択の信頼性を高めるために、9 つの手法をシミュレーションで比較評価し、サンプルサイズや効果の大きさなどのデータ特性が学習の成否に与える影響を明らかにした。
この論文は、PacBio HiFi 長鎖塩基配列解析技術を用いることで、短鎖配列では困難だった変異表面抗原(VSA)ファミリーを含む複雑な Plasmodium falciparum 遺伝子組の完全な de novo アセンブリを達成し、自然感染由来の寄生虫の進化や伝播動態の解明に寄与する高品質なゲノム資源を提供したことを報告しています。
本論文は、大規模なコホートにおけるゲノム全体の系統関係を記述する祖先再組換えグラフ(ARG)からコンテキスト依存の埋め込みを学習するトランスフォーマーモデル「ARGformer」を提案し、遺伝子型行列に依存せずに集団構造の把握や祖先推定を可能にする手法を開発したことを報告しています。
本研究は、真菌、植物、動物の 3 門にわたる 5 種および 641 形質のゲノムデータを用いた進化カリキュラム学習により、単一のモデルで種を超えた表現型分布を高精度に予測する汎用アーキテクチャ「BioWorldModel」を提案し、従来の手法を大幅に上回る性能を示したものである。
この論文は、モデル生物から遠く離れた種や短い重複遺伝子の同定が困難な状況において、アセンブリ済みゲノム注釈や近縁種の事前知識を必要とせず、新規のコウモリゲノムから APOBEC3 遺伝子ファミリーを効率的に検索・分類するための自動化パイプライン「ExTRaCT」を開発し、その有効性を示したものである。
本研究は、改良されたin vivo Perturb-seq プラットフォームを用いてマウス脳全体で 1,947 個の疾患関連遺伝子の欠失に対する 770 万個以上の細胞の転写応答を網羅的に解析し、細胞特異的な遺伝子必須性や疾患メカニズムに関する新たな知見を提供した。
ノルウェーの伝統的なファームハウス酵母「クベイク」の全ゲノム解析により、これが他の家畜化された酵母系統とは異なる早期に分岐した古代の系統であり、人類の農業や移動の歴史と深く結びついた生きた遺伝的遺産であることが明らかになった。
4,694 の真核生物ゲノムを解析した結果、分泌タンパク質をコードする遺伝子は、断片化された反復配列に囲まれた長い遺伝子間領域を特徴とする保存されたゲノム構造に位置しており、これが真核生物における分泌タンパク質の機能革新を駆動している可能性が示唆されました。
この研究は、豚の全血遺伝子発現において、熱ストレスなどの環境要因と遺伝的要因がそれぞれどのように影響を与えるかを、熱適応レベルの異なる豚の集団を用いて解明し、多数の発現量形質遺伝子座(eQTL)や熱調節・生産形質との関連を同定したものである。
本論文は、MPRA 法を用いた大規模な解析により、遺伝子発現へのバリアントの影響がその配列内の位置に依存して変化し、転写因子の結合特性やアルウ要素内の Pol III プロモーター構造などの文脈要因によって説明されることを明らかにし、調節バリアントの解釈における文脈の重要性を強調しています。