SuperCell2.0 enables semi-supervised construction of multimodal metacell atlases
本文介绍了 SuperCell2.0 这一稳健的工作流程,它能够通过利用半监督策略和单细胞多组学数据构建高质量的多模态元细胞图谱,从而显著提升大规模单细胞数据集的分析效率、模态间一致性及生物学发现能力。
1250 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 SuperCell2.0 这一稳健的工作流程,它能够通过利用半监督策略和单细胞多组学数据构建高质量的多模态元细胞图谱,从而显著提升大规模单细胞数据集的分析效率、模态间一致性及生物学发现能力。
该研究展示了 AlphaFold3 能够成功预测 ABC 转运蛋白的配体依赖性构象采样,其预测结果不仅与实验观测到的构象及动力学特征高度相关,还能揭示此前未被发现的构象状态,并暗示其预测能力源于对训练数据中结构原理的泛化而非简单记忆。
本文介绍了 wavess 1.2 框架,该框架通过引入 HLA 特异性细胞毒性 T 淋巴细胞(CTL)反应和可变重组率机制,显著提升了模拟宿主内病毒序列进化及免疫选择压力的能力。
该研究提出了一种基于对比学习的多模态框架,通过整合 T1 和 T2 加权 MRI 数据构建了具有遗传一致性的脑表征,不仅提升了传统表型、年龄及脑疾病的预测能力,还揭示了跨模态遗传位点的高度重叠及潜在的生物学靶点。
本文介绍了 Dory,一种用于成像基染色质追踪数据的统计方法,能够通过量化基因组区域间的空间距离差异,系统性地识别并分析单细胞水平三维基因组结构的改变及其与基因调控的关联。
本研究通过大规模文献分析首次系统评估了化学探针在药物发现中的价值,发现其不仅能比现有知识库提前 1-7 年提供靶点证据,还揭示了数百个未被记录的新靶点 - 疾病关联,从而显著推动了早期治疗靶点的优先排序与药物重定位。
该研究通过利用基于 SHAP 的模型解释工具,揭示了在生物医学图像小样本数据中,机器学习模型容易因过拟合个体特征而非学习真实生物学规律,并证明了通过调整任务目标与数据特性相匹配,结合事后解释分析,不仅能识别偏差,还能从有限数据中提取有价值的生物学洞察。
该研究提出了一种名为 DiCNN-UniK 的双输入卷积神经网络模型,它利用独特的 k-mer 嵌入信息而非传统的频率模式,实现了对低覆盖率(低至 20%)黄病毒基因组的高效、无需比对且高精度的分类。
该研究提出了一种整合无监督聚类、有监督分类及新型方向性非负矩阵分解(dNMF)模型的多模态框架,证实了全基因组短串联重复序列(STR)变异在解析人类群体结构方面比单核苷酸多态性(SNP)具有更高分辨率,并能提供基于突变动力学的可解释性人口历史洞察。
ProteinConformers 是一个大规模资源库,通过多种子分子动力学策略生成了 270 万个经过几何优化的蛋白质构象,并辅以能量评估和相似性注释,旨在解决现有资源在构象覆盖度、能量标注及基准测试标准方面的不足,从而为蛋白质动力学、变构效应及药物发现提供连续的能量景观描述和分析平台。