evedesign: accessible biosequence design with a unified framework
本文介绍了 evedesign,这是一个统一的开源框架,旨在通过提供方法无关的条件生物序列设计、支持多目标优化及实验闭环迭代,并配备交互式网页界面,从而解决现有机器学习蛋白工程工具互操作性差且难以被非专家使用的问题。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 evedesign,这是一个统一的开源框架,旨在通过提供方法无关的条件生物序列设计、支持多目标优化及实验闭环迭代,并配备交互式网页界面,从而解决现有机器学习蛋白工程工具互操作性差且难以被非专家使用的问题。
本文介绍了 StrucTTY,这是一款专为高性能计算和 SSH 会话等纯文本终端环境设计的交互式蛋白质结构可视化工具,支持实时旋转、缩放、多结构对比及二级结构展示。
该研究开发了一种结合关键词搜索、隐马尔可夫模型和结构比对的结构引导工作流程,成功识别并重新注释了蛋白质数据库(PDB)中所有 1513 个细胞色素 P450 沉积物,建立了首个经过严格人工验证且与结构关联的 P450 酶标准化注册库。
本文提出了 SELFormerMM 框架,通过整合 SELFIES 符号、分子结构、文本描述及知识图谱中的生物交互数据,实现了多模态分子表征学习,从而在多种分子属性预测任务中超越了单一模态模型。
本文提出了一种名为 Super Bloom 的过滤器,它通过利用最小化子将相邻 k-mer 分组并映射至同一内存块,结合 findere 方案,在生物序列流式查询中显著提升了缓存效率与查询速度,同时大幅降低了误报率。
本文介绍了 PhyloRNA,这是一个 curated 元数据库,它将 RNA 二级结构与其来自五个分类系统的系统发育注释及丰富的结构描述符相关联,以支持大规模的 RNA 比较与进化分析。
本文介绍了 RiboBA,这是一种能够校正不同核糖体图谱测序(Ribo-seq)实验方案引入的偏差、从而在多种数据集中实现更稳健且准确的新开放阅读框(ncORF)鉴定的概率框架。
该研究开发了一种基于呼吸道微生物组数据和机器学习(特别是 XGBoost 模型)的人工智能决策支持工具,能够利用微生物群落失调特征(如不动杆菌和葡萄球菌的富集)准确区分 COVID-19 患者的严重程度,从而实现高效的临床分诊。
DOTSeq 是一种用于核糖体图谱分析的全基因组框架,它通过引入差异 ORF 使用(DOU)统计模型和差异翻译效率(DTE)方法,实现了在批量和单细胞水平上对 ORF 层面翻译调控的高灵敏度检测与全流程分析。
该研究通过整合现有筛查系统结果并经由利益相关者科学评审,制定了一套用于界定“关注序列”的标准化准则,显著减少了序列分类争议,为生物安全筛查标准与政策的建立奠定了基础。