Active Learning for Budget-Constrained TCR--pMHC Wet-Lab Validation
本文提出了一种名为 UDAL 的基于不确定性和多样性的主动学习策略,通过结合 MC Dropout 与核心集选择,在有限的湿实验预算下显著提升了 TCR-pMHC 结合预测模型的效率,从而大幅降低了 T 细胞疗法发现中的实验验证成本。
756 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了一种名为 UDAL 的基于不确定性和多样性的主动学习策略,通过结合 MC Dropout 与核心集选择,在有限的湿实验预算下显著提升了 TCR-pMHC 结合预测模型的效率,从而大幅降低了 T 细胞疗法发现中的实验验证成本。
本文提出了名为 FairTCR 的公平性感知框架,通过群体分布鲁棒优化(GDRO)显著降低了 TCR-pMHC 结合预测中不同 HLA 等位基因和人群队列间的性能差距,在保持整体预测精度的同时有效提升了罕见等位基因及少数族裔群体的预测公平性。
本研究利用机器学习技术填补了委内瑞拉玻利瓦尔州 2009 至 2016 年间按蚊种群数据的缺失,并构建了结合气候变量的疟疾传播模型,结果表明该方法显著提高了间日疟发病率的预测准确性,但未能有效预测恶性疟发病率。
本文介绍了 ORION,一种利用多智能体大语言模型框架将复杂免疫谱数据(如 PhIP-seq)的分析与假设生成时间从数月压缩至数小时,从而显著加速自身免疫疾病机制研究的新型工具。
该研究提出了一种基于条件化蛋白质语言模型的生成框架,用于设计具有特定构象系综特性的内在无序蛋白,并发现数据规模是决定设计精度和实现数据驱动蛋白质工程范式的关键限制因素。
本文介绍了 vcfilt,一种用 Go 语言编写的零分配流式 VCF 过滤器,它通过专注于高频过滤标准并采用字节扫描解析,在处理大规模基因组数据时比 bcftools 快 7.9 至 12.2 倍,同时保持输出完全一致。
本文介绍了一种名为 ABB4-STEROIDS 的生成式结构预测模型,该模型利用大规模分子动力学模拟数据训练,能够以高精度采样抗体的构象集合,从而克服了传统方法在预测蛋白质动态构象空间方面的局限性。
该研究通过生物信息学与计算模拟分析,揭示了非洲爪蟾属中嗜冷(X. laevis)与嗜热(X. tropicalis)物种的 EndoG 蛋白在氨基酸组成、理化性质及分子相互作用能等方面存在显著差异,证实温度是驱动这些同源蛋白适应性进化的主导因素。
本文介绍了 ProteomeScan,这是一个基于云计算和分子对接技术、开源于 DeepChem 生态系统的工具包,能够通过对人类蛋白质组进行大规模扫描来高效识别和验证药物分子与蛋白靶点之间的相互作用。
MICRON 是一种基于多示例学习的自动化工具,它无需细胞分割即可从空间成像蛋白质组学数据中学习样本表征,从而更准确地识别与疾病预后相关的免疫微环境,并在脑癌研究中揭示了与生存结果相关的细胞间通讯机制。