BioChemInsight: An Online Platform for Automated Extraction of Chemical Structures and Activity Data from Patents

BioChemInsight 是一款开源平台,通过集成多种先进模型实现了从专利中自动提取化学结构、生物活性数据及化合物标识符,其准确率超过 90%,有效补充了现有公共数据库的空白并大幅缩短了药物研发的数据预处理时间。

Zhe Wang, Fangtian Fu, Wei Zhang, Lige Yan, Nan Li, Wenxia Deng, Yan Meng, Jianping Wu, Hui Wu, Wenting Wu, Gang Xu, Xiang Li, Si Chen

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BioChemInsight 的“超级助手”,它专门用来帮科学家从海量的专利文件中自动提取化学药物信息。

为了让你更容易理解,我们可以把这项技术想象成一位不知疲倦的“化学图书管理员”兼“数据翻译官”

1. 背景:为什么我们需要它?

想象一下,制药公司每年都要阅读成千上万份专利文件。这些文件就像一本本厚厚的“魔法书”,里面画着各种神奇的分子结构图(药物的样子),并写着它们能治什么病(药效数据)。

  • 过去的问题:以前,科学家必须像手工抄写员一样,一页一页地翻书,把图里的分子画下来,再把旁边的数字(比如药效强度)抄到 Excel 表里。这不仅慢得要命(需要几周甚至几个月),还容易抄错,让人累得半死。
  • 现在的痛点:虽然有一些工具能自动识别图片里的化学分子(就像 OCR 识别文字一样),但它们有个大毛病:只认图,不认字。它们能认出“这是个分子”,但不知道这个分子旁边写的“药效是 50"到底属于谁。这就好比只认出了人的脸,却不知道他的名字和职业。

2. BioChemInsight 是什么?

BioChemInsight 就是为了解决这个问题而生的。它是一个全自动的流水线工厂,能把杂乱的专利 PDF 文件,瞬间变成整齐、可用的数据表格。

我们可以把这个过程想象成三个步骤的“魔法流水线”

第一步:找图与“复印” (识别分子)

  • 工具:DECIMER 和 MolNexTR。
  • 比喻:这就像是一个超级敏锐的扫描仪。它能在一堆密密麻麻的文字和表格中,精准地找到那些画着化学结构的图片,把它们“剪”下来,然后像翻译官一样,把图片翻译成计算机能读懂的代码(SMILES 字符串)。
    • 以前:人工看图,容易看花眼。
    • 现在:AI 一眼就能认出:“这是苯环,那是双键”,准确率高达 99%。

第二步:对号入座 (关联名字)

  • 工具:GLM-4.5V (一种强大的视觉语言模型)。
  • 比喻:这是最关键的“侦探”环节。专利里通常写着“化合物 1"、“化合物 2",旁边画着对应的图。这个 AI 侦探会观察图片的位置,把“化合物 1"这个名字和刚才识别出的分子图片牢牢地绑定在一起
    • 以前:工具只能认出图,不知道图旁边写的是谁。
    • 现在:AI 能看懂:“哦,这个图在‘化合物 1'的旁边,所以它们是一对。”

第三步:提取数据与“标准化” (读取药效)

  • 工具:PaddleOCR 和 GLM-4.6。
  • 比喻:这就像是一个精明的会计。它把专利里的表格和文字变成可编辑的文本,然后找出关键数据(比如 IC50,一种衡量药效的指标)。
    • 它不仅能读出数字,还能自动换算单位。比如,有的写"0.05 微摩尔”,有的写"50 纳摩尔”,会计会自动把它们统一换算成同一种单位,方便比较。

3. 它有多厉害?

研究人员用 181 份专利文件(涉及 15 种不同的疾病目标)测试了这个系统:

  • 速度快:以前需要几周的人工整理工作,现在几小时就能搞定。
  • 准度高:在识别分子、提取数据和关联名字这三个任务上,平均准确率超过了 90%
  • 发现新大陆:这是最精彩的部分。研究人员发现,专利里藏着的化学分子,和现有的公共数据库(ChEMBL)里的分子几乎不重叠
    • 比喻:如果 ChEMBL 数据库是一个大家都知道的“老超市”,里面卖的都是常见的商品;那么专利文件就像是一个神秘的“地下宝藏库”,里面藏着很多超市里没有的、全新的“宝藏商品”。BioChemInsight 就是那个能带你进入宝藏库并整理好货物的向导。

4. 总结:这对世界意味着什么?

BioChemInsight 就像给药物研发装上了涡轮增压器

  1. 省钱省时:把科学家从枯燥的抄写工作中解放出来,让他们去搞真正的创新。
  2. 发现新药:通过挖掘那些被忽略的专利数据,科学家能发现更多潜在的有效药物,特别是针对那些很难治疗的疾病。
  3. 数据民主化:这个工具是开源的(免费公开),任何人都可以用它来挖掘数据,加速全人类的药物研发进程。

一句话总结
BioChemInsight 是一个AI 机器人,它能像超级速记员一样,把成千上万份复杂的药物专利,自动整理成清晰、准确的“药物寻宝图”,帮助科学家更快地找到治愈疾病的新药。