DOTSeq enables genome-wide detection of differential ORF usage
DOTSeq 是一种用于核糖体图谱分析的全基因组框架,它通过引入差异 ORF 使用(DOU)统计模型和差异翻译效率(DTE)方法,实现了在批量和单细胞水平上对 ORF 层面翻译调控的高灵敏度检测与全流程分析。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
DOTSeq 是一种用于核糖体图谱分析的全基因组框架,它通过引入差异 ORF 使用(DOU)统计模型和差异翻译效率(DTE)方法,实现了在批量和单细胞水平上对 ORF 层面翻译调控的高灵敏度检测与全流程分析。
该研究通过整合现有筛查系统结果并经由利益相关者科学评审,制定了一套用于界定“关注序列”的标准化准则,显著减少了序列分类争议,为生物安全筛查标准与政策的建立奠定了基础。
该研究通过置换策略评估发现,尽管负二项分布模型(如 DESeq2、edgeR)易产生假阳性而成分校正方法(如 ALDEx2、ANCOM-BC2)易产生保守结果,但传统的 t 检验和 Wilcoxon 检验在零假设下表现出更稳健的 p 值分布,提示在微生物组差异丰度分析中需谨慎选择统计方法。
本文提出了一种基于生成流匹配的快速粗粒化框架,通过将蛋白质序列压缩为二级结构元素来预测接触图,不仅能在毫秒级时间内以高精度捕捉全局拓扑特征和长程相互作用,还能有效区分稳定折叠核心与柔性区域,从而为大规模探索蛋白质结构基因型 - 表型图谱提供了高效工具。
该论文介绍了 usiGrabber 这一可扩展框架,它能够自动化地从 PRIDE 等大规模公共库中提取和整理质谱数据,从而高效构建适用于机器学习的大规模蛋白质组学数据集,解决了现有数据难以复用且更新滞后的问题。
DeSCENT 是一种通过利用去卷积算法从批量 RNA 测序数据重建单细胞转录组,进而整合多模态信息以显著提升癌症生存预测准确性的新框架。
Ryder 是一个灵活的 Python 软件包,它通过利用稳定的内部参考区域(如不变 CTCF 结合位点)构建双层模型,有效校正多种表观基因组测序数据中的技术变异,从而提升跨样本比较的准确性并增强对真实生物学信号的检测能力。
本文提出了 HKS,一种基于谱 Burrows-Wheeler 变换(SBWT)的数据结构,它通过单一索引支持可变长度 k-mer 的精确分层注释,利用层次感知平滑算法解决多匹配和 novel k-mer 问题,从而在人类基因组特征分配中实现了比现有工具(如 Kraken2)更高的准确性和特异性。
本文介绍了 HARVEST 系统,这是一种利用多智能体大语言模型从美国专利局档案中自动提取并结构化海量“暗”生物活性数据的管道,该系统在极低成本和时间内构建了包含数百万条记录及大量新靶点与骨架的数据库,并揭示了现有模型在泛化能力上的根本局限。
本文介绍了一种名为 PREMISE 的基于 Rust 构建的概率框架,该框架通过整合质量感知的期望最大化算法与高效比对技术,克服了传统 k-mer 方法丢失关键信息的缺陷,从而在病毒宏基因组测序中实现了对流感病毒等病原体的高分辨率鉴定、来源分配及混合感染检测。