aaKomp: Alignment-free amino acid k-mer matching for genome completeness assessment at scale
本文介绍了 aaKomp,一种基于氨基酸 k-mer 匹配和多索引布隆过滤器的无比对工具,它通过支持自定义参考数据库,在保持高精度的同时显著提升了大规模基因组完整性评估的速度与内存效率,并提供了更细致的评分系统以优化迭代工作流程。
1243 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 aaKomp,一种基于氨基酸 k-mer 匹配和多索引布隆过滤器的无比对工具,它通过支持自定义参考数据库,在保持高精度的同时显著提升了大规模基因组完整性评估的速度与内存效率,并提供了更细致的评分系统以优化迭代工作流程。
本文介绍了 ATHILAfinder,这是一款专为植物基因组设计的高效计算流程,能够利用特异性序列基序和同源比对精准识别 ATHILA 类 LTR 逆转录转座子,其性能优于现有通用工具,为研究该转座子在十字花科植物中的进化动态提供了有力支持。
该论文介绍了 miRBind2,这是一种基于深度学习的模型,仅通过序列信息即可利用创新的成对核苷酸表示法准确预测 miRNA 结合位点,并能进一步扩展用于预测基因转录抑制,其性能显著优于现有方法且参数量更少。
该研究提出了一种基于张量分解的无监督特征提取方法,通过整合转录组、翻译组和蛋白质组数据,成功识别出在支链氨基酸饥饿条件下具有不同翻译调控模式(如核糖体堆积和翻译缓冲)的功能性基因簇,并揭示了其在细胞命运转变中的关键生物学机制。
该研究利用长读长宏基因组测序技术,对中国两大城市土壤样本进行了高分辨率分析,成功重建了数千个包含大量新物种的基因组,并揭示了其丰富的次级代谢潜力及被忽视的小蛋白家族功能,从而深化了对城市土壤微生物多样性及其公共健康意义的理解。
该研究通过耦合密码子与蛋白质语言模型,揭示了遗传变异致病性同时受“产物”(氨基酸残基特征)和“过程”(密码子级调控约束)驱动,且不同功能变异及实验平台对这两类信号的敏感度存在显著差异。
该研究开发了一种整合多种转录组特征与连接评分方法的计算工作流,成功识别出 64 种具有潜力的抗结核宿主导向治疗药物及 12 个关键桥接基因靶点,为系统性发现细菌感染的宿主导向疗法提供了稳健框架。
SVPG 是一种利用单倍型解析泛基因组参考进行精准结构变异检测和快速泛基因组图增强的新方法,其在多种测序数据中展现出优于现有工具的检测性能,并显著提升了泛基因组图的构建效率。
PyrMol 提出了一种知识结构的金字塔图框架,通过构建融合功能基团、药效团及逆合成片段等多专家视角的异构分层图,并利用多源知识增强与对比学习机制,有效弥合了人类化学直觉与计算推断之间的差距,从而在分子性质预测任务中实现了超越现有最先进方法的泛化性能。
本文提出了 Dingent,这是一个可配置的数据库检索与集成智能体框架,旨在通过自然语言接口连接多种数据源并提供 Web 界面,从而解决现有方案缺乏一站式数据发现与集成能力的空白。