Searching the Druggable Genome using Large Language Models
本文介绍了 DGIdb 模型上下文协议(MCP)服务器,该工具通过允许大语言模型直接访问 DGIdb API,使用户能够以自然语言查询药物 - 基因相互作用数据,从而显著提升了模型获取准确且最新的生物医学知识的能力。
1238 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 DGIdb 模型上下文协议(MCP)服务器,该工具通过允许大语言模型直接访问 DGIdb API,使用户能够以自然语言查询药物 - 基因相互作用数据,从而显著提升了模型获取准确且最新的生物医学知识的能力。
该研究提出了一种结合在线狄利克雷过程混合模型先验的自适应聚类计数自编码器,通过显著优化单细胞数据的潜在空间几何结构(如簇紧凑性和分离度),揭示了其在轨迹分析、流形可视化和程序级注释等任务中优于传统标签恢复指标的应用价值。
本文提出了 Topic-FM 模型,通过结合受单纯形约束的神经主题变分自编码器与流场细化技术,在无需牺牲标签一致性的前提下显著提升了单细胞转录组数据的聚类性能与基因程序的可解释性。
该研究通过广泛的模拟实验和真实癌症数据验证,系统比较了多种生物标志物识别与预后建模方法在不同数据特征下的表现,发现 CoxBoost 和 Adaptive LASSO 综合性能最优,从而为癌症研究人员处理高维基因组数据提供了方法选择依据。
该研究通过对 237 名参与者的 28 年纵向血清样本进行非靶向代谢组学分析,揭示了肉碱、磷脂酰胆碱、饮食来源化合物(如胡椒碱)及药物代谢物(如美托洛尔)等特定代谢特征与认知韧性之间的显著关联,为理解衰老过程中认知韧性的分子机制提供了新的生物标志物和线索。
该研究利用蜜蜂采集的花粉 DNA 序列数据,通过随机森林和 k-近邻等机器学习模型成功实现了仅凭花粉组合对样本来源地的高精度地理定位,并证明使用原始序列数据训练模型即可达到与分类数据相当的效果。
本文介绍了 circStudio,这是一个基于 Python 的开源软件包,旨在通过统一预处理、指标计算和昼夜节律数学建模功能,解决现有工具分散的问题,从而为昼夜节律生物学、睡眠科学和数字健康研究提供高效、可复现的数据分析框架。
该研究通过整合 RNA 表达、基因属性及亚细胞定位构建机器学习框架,发现亚细胞定位是预测癌症中蛋白质可检测性的关键因素,并揭示了广泛存在的、具有特定生物学意义的转录组与蛋白质组不协调现象。
该研究提出了一种结合突变信息与片段组学特征(如片段长度和末端基序)的新型框架,通过利用肿瘤特异性片段模式,在不依赖模型训练的情况下显著提升了结直肠癌患者循环肿瘤 DNA(ctDNA)的检测灵敏度,为微小残留病灶评估和早期复发监测提供了可扩展的解决方案。
本研究利用 AlphaFold2 模型从头设计并合成了针对人补体 C1q 的特异性环状肽配体,成功实现了从人血浆中一步纯化 C1q,且该温和、无标记的策略在保持目标蛋白天然结构的同时,为抗体依赖的色谱法提供了一种快速、低成本的替代方案。