TPCAV: Interpreting deep learning genomics models via concept attribution
本論文は、相関する埋め込み特徴を処理するために PCA 変換を導入し、TCAV 法を改良した「TPCAV」を提案することで、DNA 配列だけでなくクロマチン状態や反復配列などの一般的な生物学的概念を含む多様なゲノム深層学習モデルの解釈を可能にしたことを報告しています。
1235 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、相関する埋め込み特徴を処理するために PCA 変換を導入し、TCAV 法を改良した「TPCAV」を提案することで、DNA 配列だけでなくクロマチン状態や反復配列などの一般的な生物学的概念を含む多様なゲノム深層学習モデルの解釈を可能にしたことを報告しています。
本論文は、従来の空間計測手法では捉えきれないキラル性などの空間的文脈を定量化し、細胞の形態と治療耐性の相関を解明するために、2 次元輪郭を離散正弦波に変換して高速フーリエ変換を適用する新規アルゴリズム「線形圧縮極座標変換(LCPC)」を提案するものである。
ESM3 の離散構造トークン空間に並列熱交換法を組み合わせた「MultiStateFold」は、単一構造に偏る既存手法の限界を克服し、タンパク質の多様なコンフォメーションを高精度に予測するとともに、配列と構造の整合性に基づく新たな信頼度指標「SLL」を提案する。
本研究は、複数の異質な病理画像基盤モデルを適応的に統合し、空間トランスクリプトミクスデータと組み合わせることで、乳がんの組織学的特徴から臨床的に重要な遺伝子を高精度に予測し、解釈可能性を向上させる新しい枠組みを提案するものである。
この論文は、Visium 空間トランスクリプトミクスと単細胞マルチオームデータを統合し、GraphST を拡張した空間正則化マッピング手法を用いて、黒色腫組織における空間的に解像された転写因子活性やクロマチンアクセシビリティを含む遺伝子発現プログラムを推論するフレームワークを提案しています。
本研究では、タンパク質の構造情報を言語モデルに統合した新しいフレームワーク「GeoARG」を開発し、既存の配列相同性ベースの手法では検出困難だった進化的に遠縁な耐性遺伝子を大規模に発見し、抗生物質耐性遺伝子群(レジストーム)の理解を大幅に拡大しました。
本研究は、NMR 構造集合体と計算力学モデルを統合して解析した結果、UBL3 の UBL 領域が他のユビキチン様タンパク質と比較して特に中央のαヘリックスに依存した動的制御を示すことを明らかにし、これが疾患関連タンパク質の輸送や機能調節の基盤となる可能性を提示したものである。
この論文は、組織幾何学を明示的にモデル化する新しい枠組みを開発し、リガンド - 受容体相互作用の「界面関連性」と「空間的局在性」を区別することで、腫瘍間コミュニケーションが離散的な状態ではなく、空間的制約の度合いを示す連続体としてより正確に記述されることを示しています。
この研究は、遺伝子発現データにおける差次的発現解析において、技術的・生物学的な交絡因子を補正するサロゲート変数と集団構造を補正する遺伝子型主成分を併用することが、単独の手法よりも再現性と生物学的妥当性を大幅に向上させることを示し、両者の併用を標準的な実践として推奨しています。
本研究では、単細胞の空間配置ではなく多細胞の解剖学的構造に直接焦点を当てた解析手法を提案し、その実装としてオープンソースの Bioconductor パッケージ「sosta」を公開しました。