Sex Checking by Zygosity Distributions
本文提出了一种名为 Zigo 的新型机器学习方法,该方法仅需标准 VCF 文件即可通过分析 X 染色体基因型分布来自动推断性别,无需参考数据或手动阈值调整,并在多种数据模态和不同数据集上展现了高精度与强泛化能力。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了一种名为 Zigo 的新型机器学习方法,该方法仅需标准 VCF 文件即可通过分析 X 染色体基因型分布来自动推断性别,无需参考数据或手动阈值调整,并在多种数据模态和不同数据集上展现了高精度与强泛化能力。
本文提出了一种针对彩色压缩 de Bruijn 图的新方法,通过结合插值与外推技术来校正基因组数量差异,并利用 Hill 数指数对稀有和常见节点进行加权,从而实现对泛基因组多样性的有效比较。
GOTFlow 是一种基于图约束最优传输的通用框架,它通过在潜在空间中联合学习表征与不平衡传输耦合,从横断面生物医学数据中推断出具有生物学可解释性的定向群体动态演变及分子驱动特征。
该论文提出了 SpeciefAI,一种基于 Transformer 的多物种模型,能够直接在 mRNA 空间生成针对特定物种(如人和犬)优化的抗体框架序列,从而在满足宿主高效表达需求的同时最小化免疫原性。
本文通过引入由泛基因组图诱导的同源关系概念,提出了用于比较不同图模型及定义其相互转换性质的同源度量标准,并开发了相应的转换算法及工具包 WGAtools。
本文提出了一种名为 scRGCL 的单细胞聚类方法,该方法通过结合对比学习与邻居感知重加权策略,有效解决了 scRNA-seq 数据的高维稀疏及长尾分布挑战,在保持簇内紧密性的同时显著提升了细胞类型识别的准确性。
本文设计了空间占用小于每 k-mer 3 比特的更快子集秩数据结构,从而在低内存区间实现了帕累托最优的 SBWT 基 k-mer 查找结构。
本文提出了名为"10-minimizers"的新型最小化子类,证明了其在非渐近区间内具有比随机最小化子更低的期望密度,并进一步设计了兼具常数空间、低密度和快速 k-mer 键检索特性的"spacers"方案,从而在性能上超越了现有的常数空间最小化子方法。
本文提出了轻量级多模态基础模型 SpatialFusion,通过整合组织病理学、基因表达及推断的信号通路活性,能够识别超越单纯空间邻近性、具有独特通路特征的生物相干微环境,并在结直肠癌和肺癌研究中成功揭示了具有临床意义的形态分子生态位。
InSTaPath 是一种多模态主题学习框架,它通过将组织病理学图像转换为离散“图像词”并与空间转录组数据联合建模,实现了可解释的转录程序与组织形态学关联分析,从而提升了空间域识别能力并揭示了生物学意义。