TPCAV: Interpreting deep learning genomics models via concept attribution
该论文提出了 TPCAV 方法,通过引入 PCA 去相关变换改进概念激活向量技术,首次实现了对涵盖从单碱基序列到染色质状态及基础模型等多种输入形式的基因组深度学习模型进行灵活、鲁棒且输入无关的全局概念归因解释。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了 TPCAV 方法,通过引入 PCA 去相关变换改进概念激活向量技术,首次实现了对涵盖从单碱基序列到染色质状态及基础模型等多种输入形式的基因组深度学习模型进行灵活、鲁棒且输入无关的全局概念归因解释。
本文提出了一种名为线性化压缩极坐标(LCPC)变换的新算法,通过将二维轮廓转化为离散正弦波并应用快速傅里叶变换,克服了传统空间度量无法捕捉手性等空间上下文特征的局限,从而实现对二维至三维细胞培养形态的多维量化分析,以揭示与治疗耐药性相关的新表型。
本文提出了 MultiStateFold(MSFold)框架,通过将并行退火算法整合至 ESM3 蛋白语言模型的离散结构令牌空间,成功克服了现有方法(如 AlphaFold 3)在采样单一主导构象上的局限,实现了对蛋白质多种亚稳态构象的高精度预测并提出了新的置信度指标。
该研究提出了一种自适应集成多种异质性病理基础模型的框架,通过结合空间转录组数据,在乳腺癌中实现了比单一模型及传统集成方法更精准的基因预测,并显著提升了模型的可解释性。
该研究提出了一种将空间转录组与单细胞多组学数据整合的框架,通过空间正则化映射将染色质可及性和转录因子活性推断至组织空间,从而在黑色素瘤组织中解析出具有空间定位特征的调控程序。
该研究提出了融合几何特征与蛋白质语言模型的 GeoARG 框架,有效克服了传统同源搜索的局限,成功从宏基因组中发现了 1,485 个与已知基因高度分歧但功能保守的新型抗生素耐药基因。
该研究通过结合 NMR 结构集合与各向异性网络模型等计算方法,揭示了 UBL3 结构域具有独特的 C 端高柔性及以α-螺旋为中心的主导动态控制特征,并指出其螺旋残基对集体运动的调控能力在泛素样蛋白家族中最为显著,这为理解 UBL3 介导的蛋白质相互作用及疾病机制提供了结构基础。
该研究提出了一种感知几何结构的配体 - 受体分析框架,通过明确区分界面关联与空间局部化,揭示了肿瘤细胞间通讯并非离散的通信模式,而是一个受组织几何结构约束的连续谱系。
该研究通过在肌萎缩侧索硬化症(ALS)转录组数据中同时校正基于表达谱的代理变量(SVs)和基于基因型的主成分(PCs),证明了这种联合校正策略能显著提升差异表达分析的生物学可重复性和基因召回率,优于单一校正方法。
本文介绍了专注于直接分析多细胞解剖结构的“基于结构的空间组学分析”方法,并发布了开源 Bioconductor 软件包 sosta 以支持该领域的研究。