New genetic codes in bacteria and archaea identified with a fast k-mer based algorithm
该研究提出了一种比现有方法快 100 多倍的基于 k-mer 的快速算法,用于从组装基因组中推断遗传密码,并成功应用于数千个细菌和古菌样本,从而发现了新的遗传密码变体,包括首个古菌密码子重新分配案例。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究提出了一种比现有方法快 100 多倍的基于 k-mer 的快速算法,用于从组装基因组中推断遗传密码,并成功应用于数千个细菌和古菌样本,从而发现了新的遗传密码变体,包括首个古菌密码子重新分配案例。
本文介绍了 NovoTax,这是一种能够从原始下至上的蛋白质组学质谱数据中直接鉴定原核生物菌株的端到端流程,它通过结合从头肽段测序与优化的基因组数据库搜索,实现了对微生物样本的菌株级鉴定并支持后续深入分析。
该研究通过多阶段机器学习分析揭示,昼夜节律(特别是 ZT8-ZT12 时段)在近视发展中定义了关键的分子窗口,并证实了视网膜与脉络膜之间存在跨组织、跨阶段及跨物种的协调基因调控网络,表明昼夜节律生物学是近视易感性、进展及治疗反应的关键决定因素。
本文指出大语言模型因参数化知识存储机制无法可靠回答植物科学中的列表式查询,进而论证了检索增强生成(RAG)的局限性,并倡导构建基于结构化知识图谱的图检索增强生成(GraphRAG)架构,以实现可溯源、完整且可复现的植物科学问答。
本文介绍了 EV-Net,这是一个专为填补细胞外囊泡(EV)介导的通讯研究空白而开发的生物信息学框架,它通过适配 NicheNet 工具来分析 EV 蛋白质组和 RNA-seq 数据,从而识别并优先排序受体组织中具有高调控潜力的 EV cargo 分子。
该研究通过融合眼底图像与光学相干断层扫描数据,将视神经环(NRR)薄化建模为高分辨率圆形函数曲线,利用无监督聚类与圆形统计方法识别出具有不同临床特征的神经退行性表型亚群,并证明了多模态融合能提升基线数据的稳健性。
本文介绍了 sctrial,这是一个专为纵向单细胞实验设计的开源分析框架,它通过采用受试者层面的估计量和不确定性量化方法,有效解决了因细胞伪重复导致的统计推断膨胀问题,从而在临床试验和转化研究中提供了更严谨的生物学解释。
本文介绍了一种名为 Halo 的预训练模型,该模型通过整合细胞核形态与 RNA 转录本的空间分布,无需针对特定数据集重新训练即可从仅含细胞核染色的图像中精准重建全细胞边界,从而显著提升了空间转录组学中的细胞分割精度与细胞类型识别可靠性。
该研究通过整合 TCGA 转录组数据与蛋白质互作网络分析,鉴定出 CDK1、CCNB1 等关键枢纽基因,揭示了其在口腔鳞状细胞癌进展中的调控作用及作为预后生物标志物的潜力。
本文提出了 GenoJEPA 框架,通过联合嵌入预测架构将基因组表征学习从局部的核苷酸重建转向潜在空间的语义对齐,从而在降低计算成本与参数量的同时,实现了跨 55 个下游任务的强泛化能力并支持无需 GPU 的轻量级分类。