mnDINO: Accurate and robust segmentation of micronuclei with vision transformer networks
本文提出了名为 mnDINO 的基于视觉 Transformer 的分割模型,利用包含五千多个标注微核的多样化数据集进行训练,实现了对 DNA 染色图像中微核的高精度、强泛化且鲁棒的分割,从而有效支持了与染色体不稳定性和癌症进展相关的微核生物学研究。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 mnDINO 的基于视觉 Transformer 的分割模型,利用包含五千多个标注微核的多样化数据集进行训练,实现了对 DNA 染色图像中微核的高精度、强泛化且鲁棒的分割,从而有效支持了与染色体不稳定性和癌症进展相关的微核生物学研究。
该研究通过系统评估多种氨基酸距离度量,提出了一种基于实验数据共识的新度量 DEX,证明其在跨物种密码子替换建模及预测平均替换频率方面优于现有方法。
DiaReport 是一个基于 R 语言的开源软件包,旨在为数据非依赖性采集(DIA)蛋白质组学提供可重复的差异表达分析工作流,并通过 Quarto 生成交互式 HTML 报告,从而简化从数据预处理到统计建模及结果可视化的全过程。
该研究评估了多种基于 Transformer 的模型对孤儿蛋白的表征能力,发现尽管这些模型在预测二级结构方面表现出一定的一致性,但在缺乏同源信息的孤儿蛋白上进行准确的三级结构预测方面表现不佳。
本研究利用 AlphaFold3 和物理信息约束序列生成器,理性设计了基于人源 IL-2 及其受体支架的合成正交细胞因子系统,旨在通过计算筛选获得具有高结构保真度、强靶向结合力且能避免脱靶效应的突变体,从而解决 CAR T 细胞治疗中 IL-2 全身给药导致的毒性和调节性 T 细胞扩增问题。
本文通过基准测试评估了 BEAGLE 库在 BEAST X 中的集成效果,揭示了硬件分配对运行时间的影响,并基于真实 Dengue 病毒数据及模拟序列提出了优化 GPU 使用参数和资源配置的指导原则。
本文提出了名为 IFACE 的基于对应关系的框架,通过概率耦合内蕴几何与空间化学场来对齐蛋白质表面,从而构建出一种能更准确区分构象变异与结构分歧、并有效识别功能相关相互作用位点的联合几何 - 化学距离。
该研究提出了一种结合 ESM-2 语言模型与循环置换平均嵌入的新方法,构建了能够全面表征环肽物理化学属性的“肽空间”,从而克服了传统算法的初始化偏差,实现了环肽库的均匀采样与高效筛选,显著提升了 AI 辅助药物发现中候选分子的发现效率。
本文介绍了 HitAnno,一种基于分层语言模型的 atlas 级 scATAC-seq 细胞类型注释工具,它通过构建细胞句子和双层注意力机制,实现了跨数据集、跨供体的高精度、可解释且无需重新训练的细胞类型识别。
本文介绍了 AlphaFind v2,这是一个利用蛋白质嵌入快速预筛选并结合 US-align 进行精细比对的工具,旨在支持在 AlphaFold 数据库和 TED 结构域数据集中进行大规模、多模式且具备生物相关性的蛋白质结构相似性搜索。