A Convolutional Deep Learning Approach to identify DNA Sequences for Gene Prediction
本論文は、GRCh38 参照ゲノムと HGNC 遺伝子名に基づき、TFxIDF によるベクトル化と畳み込みニューラルネットワーク(CNN)を組み合わせた高精度な遺伝子予測手法を提案し、その性能が最先端レベルであることを示したものである。
766 件の論文
バイオインフォマティクスは、膨大な生物学的データをコンピュータの力で解析し、生命の謎を解き明かす分野です。ゲノム情報やタンパク質の構造といった複雑なデータから、新たな発見を引き出すための重要な橋渡し役となっています。
Gist.Science では、bioRxiv から公開される最新のプレプリントをすべて対象に、この分野の論文を網羅的に扱っています。専門的な詳細な要約に加え、難しい専門用語を避け、誰でも理解できる平易な日本語での解説も併せて提供しています。
以下に、bioRxiv から更新されたばかりのバイオインフォマティクスに関する最新論文の一覧を掲載します。
本論文は、GRCh38 参照ゲノムと HGNC 遺伝子名に基づき、TFxIDF によるベクトル化と畳み込みニューラルネットワーク(CNN)を組み合わせた高精度な遺伝子予測手法を提案し、その性能が最先端レベルであることを示したものである。
この論文は、シミュレーションデータや種・遺伝子型混合実験を用いて 7 つの最先端手法を厳密に評価した結果、どの手法もすべての状況で最適ではないものの、CellBender、DecontX、SoupX が一般的に良好な性能を示すことを明らかにしています。
本論文は、自然言語で Drug-Gene Interaction Database (DGIdb) にアクセスし、LLM が構造化された最新生物医学知識を正確に活用できるようにする DGIdb MCP サーバーの開発と、その有効性を示したものである。
この論文は、ディリクレ過程事前分布を備えた適応的クラスタ数オートエンコーダが、単細胞トランスクリプトミクスにおけるラベル回復精度の低下を伴う一方で、クラスタの幾何学的構造や可視化忠実度を大幅に向上させ、軌道解析やマンホールド可視化といった特定のタスクにおいて従来の手法を上回ることを示しています。
この論文は、単一細胞遺伝子発現データから解釈可能な遺伝子プログラムを直接読み取れるよう、確率単体制約を課したトピック VAE とフロー場による後部幾何学最適化を組み合わせた「Topic-FM」を提案し、既存手法を上回るクラスタリング性能と生物学的妥当性を 56 のデータセットで実証したものである。
本研究は、237 名の長期コホートにおける血清メタボローム解析を通じて、中老年期から高齢期への移行期における認知レジリエンスと、アシルカルニチンや食事由来化合物(ピペリンなど)および薬物代謝物(メトプロロールなど)の代謝プロファイルとの関連性を明らかにし、加齢生物学における分子メカニズムの解明に寄与しました。
本研究は、機械学習を用いてがんにおけるタンパク質の検出可能性を解析し、mRNA 発現量だけでなく細胞内局在を考慮することで予測精度が向上すること、および多くの遺伝子で転写産物とタンパク質の間に構造的な不一致が存在することを明らかにしました。
本論文は、既存のタンパク質 - リガンド複合体データベースの品質と多様性のトレードオフを解決し、自動前処理パイプラインと拘束エネルギー最小化を導入することで、機械学習向けに高品質かつ多様な非共有結合相互作用データセット「CROWN」を構築したことを報告しています。
本論文は、分散化と品質のばらつきという課題を抱えるオープンソースの科学 AI エージェント生態系「OpenClaw」を体系化し、91 のプロジェクトと 2,230 のスキルを含む初のキュレーションデータセットを構築するとともに、これを基盤とした統合プラットフォーム「Claw4Science」を公開し、科学 AI エージェントの標準化と将来のベンチマーク開発の基盤を提供することを提案しています。
この論文は、ゲノム予測におけるデータ汚染の問題に対処するため、ランダムフォレストの頑健性を高めるための前処理やアルゴリズム改良などの戦略を評価し、特にデータ変換や順位に基づく手法が汚染データ下での予測精度向上に有効であることを示しています。