Cancer Driver Gene Discovery: A Patient-Level Statistical Framework
该论文提出了一种名为 iDriver 的概率图模型,通过在患者层面整合突变复发率与功能影响,有效克服了突变负荷异质性带来的干扰,从而在多种癌症类型中更准确地识别出编码及非编码区域的驱动基因,并在基准测试中显著优于现有方法。
1250 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了一种名为 iDriver 的概率图模型,通过在患者层面整合突变复发率与功能影响,有效克服了突变负荷异质性带来的干扰,从而在多种癌症类型中更准确地识别出编码及非编码区域的驱动基因,并在基准测试中显著优于现有方法。
本文提出了名为 PanMixer 的隐私保护框架,通过将其隐私与效用权衡建模为背包问题,在有效降低人类泛基因组图谱重识别风险的同时,保留了其在下游应用中的关键效用,从而促进更多个体(尤其是代表性不足人群)参与基因组研究。
本文提出了一种基于增量指纹的蒙特卡洛算法,能够在构建过程中直接对 k-mer 颜色集进行去重和压缩,从而显著降低索引构建时的内存峰值并保证极低的错误概率。
该研究在受控合成数据集上验证了通过卷积自编码器提取冷冻电镜图像潜在表示并回归预测原子坐标的可行性,证明了无需恢复姿态或计算二维投影即可从噪声图像中直接推断生物大分子三维结构及构象异质性。
该研究揭示了多基因风险评分(PRS)存在严重的隐私泄露风险,证明攻击者可利用动态规划等方法从单个 PRS 值中重构部分基因组并实现个体去匿名化,同时提出了评估此类风险的分析框架及在保障实用性的前提下安全共享 PRS 模型的解决方案。
该论文提出了一种结合生物与统计重要性评分的“引导式分词”(Guided Tokenization)策略及领域自适应方法,显著提升了紧凑型基因组语言模型在序列分类、启动子检测及耐药性识别等关键任务中的表现与生物可解释性。
该研究提出了一种结合蛋白质相互作用网络与主成分分析的转录组分析新流程,通过作为“生物低通滤波器”有效降低单细胞测序噪声,揭示了上皮 - 间质转化(EMT)不仅是形态改变,更是一个包含代谢转换、细胞周期阻滞及解毒防御等关键模块的系统性重编程过程。
该论文提出了一种名为“自适应迹点”的复杂度感知对齐编码方法,通过根据编辑距离或对角线偏差动态分割对齐序列,在确保重建质量无损的前提下,显著提升了大规模泛基因组序列对齐数据的压缩效率。
该研究提出了一种结合 API 检索与大型语言模型语义过滤的工作流,利用高性能的开源权重模型有效解决了公共生命科学数据库中非结构化元数据标准化难题,显著提升了数据分类精度并实现了自动化处理,从而加速了公共数据集的复用。
本文介绍了 Wayfarer 这一多尺度空间组学分析框架,它通过追踪嵌套空间聚合下空间关联指标的演变,揭示了肺腺癌进展中不同尺度下共存且可重复的生物学模式,并将传统的空间聚合选择转化为具有诊断价值的信号。