Characterizing and Mitigating Protocol-Dependent Gene Expression Bias in 3' and 5' Single-Cell RNA Sequencing
3'および5' scRNA-seq プロトコル間のバイアスは全転写組にわたるものではなく、限られた遺伝子群に起因するため、これらの遺伝子を除外するアプローチが、過度な正規化やバッチ補正よりも信頼性の高いデータ統合を実現する。
1250 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
3'および5' scRNA-seq プロトコル間のバイアスは全転写組にわたるものではなく、限られた遺伝子群に起因するため、これらの遺伝子を除外するアプローチが、過度な正規化やバッチ補正よりも信頼性の高いデータ統合を実現する。
本論文は、プログラミング知識が不要なゼロコードの双エンジン型グラフィカルソフトウェア「iGS」を開発し、33 の予測モデルを統合して複雑な遺伝的相互作用を含む多遺伝子形質の予測を可能にすることで、ブリーダーの技術的障壁を解消し、ゲノム選択の普及を加速させることを示しています。
本論文は、固定長の k-mer の限界を克服し、ゲノムの局所的な複雑さに適応して繰り返し領域の境界を自然に定義する「最小一意部分文字列(MUSs)」という文脈認識型のアプローチを提案し、線形時間アルゴリズムと「アウトポスト」概念を通じて、ゲノムアセンブリや反復配列の解析において、従来の k-mer よりもはるかに高い解像度とデータ圧縮率を実現することを示しています。
この論文は、決定論的な生物学的推論とローカルに展開された大規模言語モデルを組み合わせるニューロシンボリック手法「h5adify」を開発し、メタデータの不整合を解決して単一細胞および空間トランスクリプトミクスデータの統合を可能にし、大規模な生物学的データセットの再利用とファウンデーションモデルのトレーニングを促進することを報告しています。
この論文は、ネットワークトポロジーとウイルスの分子模倣性を統合し、厳密にキュレーションされたベンチマークデータセットを用いて開発された機械学習ベースの予測ツール「vhPPIpred」が、ウイルス - 人間タンパク質間相互作用の予測精度と効率を大幅に向上させ、抗ウイルス薬開発や新興ウイルスの警戒などへの応用可能性を示したことを報告しています。
本論文は、環境隔離や前処理の自動化、大規模データへのスケーラブルな推論、および標準化された評価機能を提供する、シングルセル・ファウンデーションモデルのゼロショット推論のための統合フレームワーク「scUnify」を提案するものである。
本論文は、タンパク質言語モデルの埋め込み表現と機械学習を組み合わせ、液-液相分離(LLPS)を駆動するタンパク質を高精度に予測する新たなツール「LLPSight」を開発し、ヒトプロテオーム全体での適用を通じて新たな研究ターゲットの発見を可能にしたことを報告しています。
本論文は、メタ学習フレームワーク STUNT を用いた微生物叢に基づく疾患分類の評価において、極端なデータ不足時のみ限定的な利点が認められるものの、サンプル数が増加すると逆に性能が低下し、メタ学習による表現がタスク固有の信号へのアクセスを制限するボトルネックとなることを示し、分類成功の主要因は内在的な生物学的シグナルの強さであることを明らかにした。
本論文は、インシリコスクリーニングにより、インドの薬用植物(特にアシュワガンダ)に含まれるフィトケミカルが、臨床的に承認された薬剤ミグリトールと同等以上の結合親和性で腸管α-グルコシダーゼを阻害し、2 型糖尿病の食後高血糖管理における有望な候補であることを示した。
本論文は、スケッチングアルゴリズムと GPU 加速を活用して、従来の手法より最大 1000 倍高速化され、数百万サンプルと数十億の分類群を処理可能であり、かつ実データにおいて統計的に同等の精度を維持する新しいマイクロバイオーム解析アルゴリズム「DartUniFrac」を提案するものである。