On why and how to encode probability distributions on graph representations of omics data: enhancing predictive tasks and knowledge discovery
该论文提出了一种将结构化统计分布整合到图表示中的新框架,用于处理复杂的组学数据,该框架在多种癌症预测任务中表现优异,同时显著增强了对临床结果相关调控模块的生物学可解释性。
769 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了一种将结构化统计分布整合到图表示中的新框架,用于处理复杂的组学数据,该框架在多种癌症预测任务中表现优异,同时显著增强了对临床结果相关调控模块的生物学可解释性。
该研究通过药物重定位策略,利用分子动力学模拟证实抗 HIV/HCV 蛋白酶抑制剂(特别是茚地那韦)能通过与基孔肯雅病毒 nsP2 蛋白关键残基形成氢键并诱导构象变化来阻断其活性,从而将其确立为一种有潜力的抗病毒治疗候选药物。
BioGraphX 提出了一种基于生化规则直接从序列构建可解释蛋白质交互图的框架,通过融合 ESM-2 嵌入与 158 个可解释生物物理特征,在无需三维结构的情况下实现了高精度且具备深层生物学洞察力的亚细胞定位预测。
该研究提出了一种名为 SLOPE 的无监督降维方法,通过构建连续的二维轨迹来刻画阿尔茨海默病中淀粉样蛋白的时空演变,从而在保留纵向时间一致性的同时,比传统全局指标更敏感地捕捉早期局部病理进展。
本文提出了一种基于增量指纹的蒙特卡洛算法,能够在构建过程中直接对 k-mer 颜色集进行去重和压缩,从而显著降低索引构建时的内存峰值并保证极低的错误概率。
该研究在受控合成数据集上验证了通过卷积自编码器提取冷冻电镜图像潜在表示并回归预测原子坐标的可行性,证明了无需恢复姿态或计算二维投影即可从噪声图像中直接推断生物大分子三维结构及构象异质性。
该论文提出了一种结合生物与统计重要性评分的“引导式分词”(Guided Tokenization)策略及领域自适应方法,显著提升了紧凑型基因组语言模型在序列分类、启动子检测及耐药性识别等关键任务中的表现与生物可解释性。
该研究提出了一种结合 API 检索与大型语言模型语义过滤的工作流,利用高性能的开源权重模型有效解决了公共生命科学数据库中非结构化元数据标准化难题,显著提升了数据分类精度并实现了自动化处理,从而加速了公共数据集的复用。
本文介绍了 Wayfarer 这一多尺度空间组学分析框架,它通过追踪嵌套空间聚合下空间关联指标的演变,揭示了肺腺癌进展中不同尺度下共存且可重复的生物学模式,并将传统的空间聚合选择转化为具有诊断价值的信号。
本文介绍了 SCiMS 这一生物信息学工具,它利用贝叶斯分类器分析宏基因组数据中的宿主染色体读段密度比,能够在宿主 DNA 含量极低的情况下跨物种准确预测宿主性别,从而有效解决微生物组研究中性别元数据缺失或错误的问题。