LAMBDA: A Prophage Detection Benchmark for Genomic Language Models
本文提出了 LAMBDA 基准,旨在通过噬菌体与细菌序列的判别任务,系统评估基因组语言模型在从探针任务到全基因组原噬菌体检测等不同复杂度场景下的性能,并揭示了训练数据质量与领域特定训练对模型效果的关键影响。
509 篇论文
基因组学探索着生命最底层的密码,致力于解读决定生物性状的遗传蓝图。这一领域不再局限于实验室,而是正深刻影响着我们对疾病、进化乃至人类自身起源的理解。在 Gist.Science 的基因组学版块中,我们专注于呈现来自 bioRxiv 的最新预印本,确保您能第一时间接触到科学界最前沿的未经同行评审的原始发现。
我们的团队会即时处理 bioRxiv 发布的每一篇相关预印本,将其转化为通俗易懂的科普摘要与详尽的技术解读,帮助不同背景的读者跨越专业壁垒。无论您是寻求灵感的科研工作者,还是对生命奥秘充满好奇的探索者,这里都能为您提供清晰、及时的资讯。
以下是该领域最新发布的论文列表,邀请您一同开启这场解读生命密码的探索之旅。
本文提出了 LAMBDA 基准,旨在通过噬菌体与细菌序列的判别任务,系统评估基因组语言模型在从探针任务到全基因组原噬菌体检测等不同复杂度场景下的性能,并揭示了训练数据质量与领域特定训练对模型效果的关键影响。
该研究通过评估七种基因组基础模型在 52 项下游任务中的表现,发现随机初始化的模型往往能作为强有力的基线,而预训练带来的提升受分词器选择限制且有限,同时现有模型未能有效捕捉临床相关的基因突变,表明当前类 NLP 的预训练策略需结合生物学先验进行改进。
该研究通过组织学、激素谱、单细胞转录组及机器学习等多维度分析,系统比较了自然衰老、VCD 诱导及 Foxl2 杂合缺失三种小鼠绝经模型,揭示了它们在卵泡丢失、内分泌紊乱和转录重塑方面的共性与特异性,从而为选择适用于不同研究背景的小鼠绝经模型提供了科学依据。
该研究提出利用基于香农熵的困惑度(perplexity)作为衡量人类转录组异构体多样性的新指标,通过纳入所有丰度的异构体而非依赖任意表达阈值过滤,在 55 种细胞类型的 124 个 ENCODE4 长读长测序数据集中实现了可解释且可重复的多样性量化。
本文介绍了 KLinterSel 工具,该工具通过参数检验和蒙特卡洛模拟两种统计方法,评估不同选择性清除检测算法识别出的候选基因组区域之间的重叠是否显著超出随机预期,从而帮助研究者更严谨地确认自然选择信号。
该研究通过全面分析发现,转录因子的内在无序区域(IDRs)在功能、表型及进化动态上显著区别于其他蛋白,表现为随时间推移无序度增加、更倾向于调控发育过程与大型网络、承受更强的进化约束,且其无序程度与疾病遗传模式及致病突变富集密切相关。
这项古基因组研究揭示了保加利亚晚期罗马时期与哥特文化相关的两个墓葬群体(Aquae Calidae 和 Khan Omurtag 宫)虽然共享相似的物质文化与宗教习俗,却具有截然不同的遗传背景(前者以安纳托利亚血统为主,后者以北欧血统为主),表明哥特身份认同在巴尔干地区是一个涵盖多种生物血统群体的文化政治框架,且其南北血统混合事件可能早于文献记载的哥特 - 罗马接触。
该研究通过利用长读长 RNA-seq 数据构建组织特异性转录本注释,显著提升了乳腺癌风险相关 eQTL 定位和整合遗传分析的精度,揭示了传统注释方法遗漏的关键调控异构体及因果变异机制。
该研究通过对酵母属八个物种的对比实验进化分析发现,尽管不同物种在应对升温时表现出各异的表型结果,但其遗传适应均通过可预测地靶向并重塑 TORC1、PKA 和 MAPK 等保守调控网络来实现,揭示了热适应过程中遗传路径的趋同性与表型结果的物种特异性。
本文介绍了一种名为 Hypercoding 的高通量生物标志物数字检测平台,该平台借鉴电信领域的纠错编码技术,通过荧光信号循环读取实现了对生物样本中超过 10,000 种靶标的高灵敏度、定量及自动化检测,并成功应用于药物基因组学变异分型及拷贝数变异分析。