The Genomic Legacy of Ancient Polyploidy in Crop Domestication
该研究通过对 22 种作物的分析证实,古代全基因组复制产生的古老同源基因(尤其是单拷贝基因)在驯化候选基因中显著富集,表明古代多倍化事件为作物驯化提供了持久的基因组基础,且基因拷贝数回归单拷贝状态并未阻碍其功能上的适应性选择。
1246 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究通过对 22 种作物的分析证实,古代全基因组复制产生的古老同源基因(尤其是单拷贝基因)在驯化候选基因中显著富集,表明古代多倍化事件为作物驯化提供了持久的基因组基础,且基因拷贝数回归单拷贝状态并未阻碍其功能上的适应性选择。
本研究通过整合计算生物学与实验验证策略,成功筛选并鉴定出两个具有高灵敏度和特异性的美洲锥虫病(恰加斯病)特异性 B 细胞表位,其中表位 5 在共流行区域能有效克服与利什曼原虫的交叉反应,为开发高精度诊断试剂奠定了基础。
本文介绍了 MSstatsResponse,这是一种基于各向同性回归的半参数统计框架,旨在解决化学蛋白质组学剂量响应数据分析中现有方法依赖固定曲线形状且对实验变异敏感的问题,从而在不同实验设计(特别是低重复和低剂量场景)下显著提高靶点识别的准确性、鲁棒性和可重复性。
本文提出了 CDS-BART,这是一款基于 BART 架构的开源基础模型,旨在解决现有工具难以处理长达 4kb 的 mRNA 序列的问题,并通过在 NCBI RefSeq 数据库九个分类群数据上的预训练,实现了对 mRNA 密码子使用、结构、进化及调控的深入分析与多种预测任务。
该论文介绍了 TEgenomeSimulator,这是一个灵活的框架,能够生成具有可配置转座元件景观的合成基因组,从而弥补了该领域缺乏真实基准数据集的空白,并促进了转座元件动态的系统性基准测试、算法开发及进化建模。
该论文提出了名为 DiffEvol 的框架,将进化视为受物理、生物及环境可行性约束的扩散过程,通过从序列数据中反演约束函数来重建 SARS-CoV-2 的适应性景观并识别关键演化转折点,从而为理解随机突变与动态适应性景观之间的相互作用提供了统一的数学语言。
本文提出了名为 SwiftTCR 的高效计算对接协议,通过利用 TCR-pMHC 复合物独特的对接角度模式限制旋转矩阵并引入 GradPose 聚类工具,显著提升了 TCR-pMHC-I 复合物结构预测的速度与精度,从而为癌症免疫治疗及 T 细胞识别机制研究提供了关键的结构信息支持。
该研究通过系统评估发现,参考基因组选择策略对分类学分析的准确性与计算效率的影响具有情境依赖性,在物种水平上全量基因组通常表现最佳,而在菌株或病毒谱系等高分辨率场景下,经过筛选的参考集结合元数据能显著提升丰度估计精度并降低计算成本。
本文提出了名为 FASTiso 的精确子图同构算法,该算法通过协调变量排序策略与剪枝规则,在各类规模和密度的图上实现了优于 VF3、RI 及 Glasgow 等现有求解器的效率、可扩展性与内存表现,并提供了 C++、Python 及 NetworkX 集成实现。
该研究提出了一种结合蛋白质语言模型与系统发育信息的迁移学习框架,通过进化相关的分层微调策略,有效解决了通用 B 细胞表位预测器在面对数据稀缺或新兴病原体时的性能瓶颈,显著提升了预测准确性。