Fast structural search for classification of gut bacterial mucin O-glycan degrading enzymes
本研究は、タンパク質言語モデルによる大まかな酵素分類と構造ベースのアプローチによる詳細分類を組み合わせることで、従来の手法よりも高精度かつ高効率に酵素の機能(EC 番号)を予測する新しい手法「DEFT」を開発し、腸内細菌のムチン分解酵素の解析を通じてその有効性を実証したものである。
769 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本研究は、タンパク質言語モデルによる大まかな酵素分類と構造ベースのアプローチによる詳細分類を組み合わせることで、従来の手法よりも高精度かつ高効率に酵素の機能(EC 番号)を予測する新しい手法「DEFT」を開発し、腸内細菌のムチン分解酵素の解析を通じてその有効性を実証したものである。
本論文は、生物学的関連性予測における既存の評価手法が持つバイアスを解消し、公平かつ堅牢な学習を可能にする「エンティティバランス評価フレームワーク」とモデル非依存の学習戦略「UnbiasNet」を提案し、ドラッグターゲット相互作用やドラッグ相乗効果予測などのタスクにおいて、既存手法の限界を明らかにするとともに、意味のある生物学的関連性の特定を可能にする厳密な基盤を確立したものである。
本論文は、バクテリアのゲノムをプレフィックスベースのダウンサンプリング手法で縮小し、k-mer 頻度行列を用いたアンサンブル学習モデルが、限られたデータや高類似ゲノムにおいても複雑な深層学習モデルを上回る表現型予測精度と解釈可能性を達成することを示しています。
既存の深層学習モデルが実世界での創薬加速において限界を示す中、本論文は結合ポケットの類似性やタンパク質間相互作用などの知識グラフを基にグラフ変換器を用いた新たな手法「PIGLET」を提案し、厳密なドラッグベース分割において他モデルを上回る性能を示すとともに、実世界の創薬事例を通じてその有用性を実証しています。
この論文は、代謝オミクスデータにおける検出限界未満の欠損値(左検閲値)を単なる欠損ではなく有用な情報として扱う「情報量に基づくケンダル・タウ相関(ICI-Kt)」手法を提案し、その有効性をシミュレーションおよび実データで実証するとともに、R と Python での実装を公開したものである。
本研究は、生物種を超えた全プロテオームを学習対象とする言語モデル「ProteomeLM」を開発し、教師なしでタンパク質間相互作用を捉えながら、従来の手法よりも高精度かつ高速な相互作用網のスクリーニングや、種を跨ぐ遺伝子必須性の予測を可能にしたことを示しています。
TraDIS 法による必須遺伝子の検出精度を向上させるため、挿入密度の変動を考慮した確率モデル「ConNIS」とパラメータ設定を客観化する不安定性基準を提案し、これらを R パッケージおよび Web アプリケーションとして公開した。
本研究は、560 例の乳がんゲノムにおける 350 万の体細胞変異を対象とした計算機パイプラインを開発し、特定の突然変異プロセスが転写因子の結合親和性を非ランダムかつ方向性を持って変化させ、乳がんのサブタイプに特異的な遺伝子制御ネットワークの再編成を引き起こすことを実証しました。
本論文は、単細胞ノックアウトデータに対する細胞応答予測モデルの評価において、既存の指標がスケーリングや次元数などの影響で誤った評価をもたらすことを示し、クロス分割や合成データを用いた厳密な検証を通じて、信頼性の高いベンチマークと評価ガイドラインの確立の必要性を提言しています。
本研究は、アレル頻度で層別化して評価することで、既存の変異効果予測ツールが主要な祖先集団間で同様の性能を発揮することを示し、遺伝性疾患の診断におけるこれらのツールの広範な展開を支持するものである。