scDisent: disentangled representation learning with causal structure for multi-omic single-cell analysis
scDisent は、単細胞マルチオミクスデータを発現関連変数と調節関連変数に分離し、疎な因果的マッピングで連結する生成フレームワークであり、既存の統合モデルを超えて生物学的解釈性と干渉解析への適性を大幅に向上させる手法です。
1235 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
scDisent は、単細胞マルチオミクスデータを発現関連変数と調節関連変数に分離し、疎な因果的マッピングで連結する生成フレームワークであり、既存の統合モデルを超えて生物学的解釈性と干渉解析への適性を大幅に向上させる手法です。
本論文は、現在のゲノム言語モデルが標準的な自己教師あり学習パラダイムに依存しているため、遺伝子発現制御の解読においてランダムな基準を超える性能を発揮できず、生化学的・調節的な事前知識を組み込んだ機能指向型の学習戦略が必要であることを示しています。
本研究は、統計解析、機械学習、自動文献レビューを統合した多エージェント AI フレームワーク「ORION」を開発し、複雑な免疫プロファイリングデータの解釈を数ヶ月から数時間へ短縮し、新たな生物学的仮説の生成を可能にしたことを報告しています。
この論文は、生物配列のクラスタリングにおいて、従来の手法が欠く「なぜそのように分類されたか」という解釈性を、代表プロトタイプと適応的半径を用いて実現する新しい手法「iClust」を提案し、その有効性を示したものである。
本論文は、タンパク質言語モデルを用いた条件付き生成フレームワークにより、特定のコンフォメーション集合記述子に基づいた内在性無秩序タンパク質(IDR)の設計が可能であることを示したが、その精度向上には大規模なデータセットが不可欠であり、データ量が IDR 設計における主要な限界要因であることを明らかにした。
本論文は、Go 言語で実装されたゼロアロケーションのストリーミングフィルタ「vcfilt」を紹介し、大規模な VCF データの品質フィルタリングにおいて bcftools を最大 12.2 倍高速化しつつ、出力の完全な互換性を維持することを示しています。
本研究は、従来の手法では困難だった成人心筋細胞の単一細胞レベルでの空間的転写プロファイリングを可能にするため、多層の空間トランスクリプトミクスデータを統合して3次元仮想心筋細胞(3D-VirtualCM)アトラスを構築し、心筋梗塞における細胞周期やmRNAの非対称分布などの新たな知見をもたらしたことを報告しています。
抗体のコンフォメーション・アンサンブルを高精度にサンプリングし、実験的証拠と照合して状態最良の性能を示す生成モデル「ABB4-STEROIDS」が新たに開発され、大規模な抗体コンフォメーション研究のためのオープンなリソースとして提供されました。
本研究は、異なる温度環境に生息する Xenopus 属の 2 種(X. laevis と X. tropicalis)において、エンドヌクレアーゼ G(EndoG)タンパク質のアミノ酸組成や立体構造特性に顕著な適応進化が見られ、温度がその多様化を支配する主要な要因であることを明らかにした。
分子動力学シミュレーションを用いた比較研究により、Fc 領域の N-グリコシル化が IgG2 と IgG4 の全体的な構造を劇的に変化させるわけではないものの、サブクラス依存性で局所的な柔軟性やドメイン間の相関運動、Fab 領域へのアロステリック影響を調節し、従来の「Fc グリコシル化が CH2 ドメインの開口を均一に促進する」という見解に挑戦し、グリコエンジニアリング戦略において完全な構造と IgG サブクラス多様性を考慮する必要性を浮き彫りにした。