Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 Mozi(墨子) 的新系统,它的核心任务是用人工智能(AI)来辅助科学家发现新药。
为了让你更容易理解,我们可以把“发现新药”想象成在茫茫大海中寻找并建造一艘完美的“救命船”。
1. 以前的痛点:一个“才华横溢但容易闯祸”的实习生
在 Mozi 出现之前,科学家尝试用普通的 AI 助手(大语言模型)来做这件事。
- 比喻:想象你雇佣了一个才华横溢但有点“飘”的实习生。他读过很多书,知道很多化学知识,也能帮你查资料。
- 问题:
- 爱做梦(幻觉):他可能会自信地告诉你:“我找到了一种完美的分子结构!”但实际上那个结构在化学上根本不存在,或者根本造不出来。
- 记性差(长程不可靠):新药研发是一个漫长的过程(从找目标 -> 筛选 -> 优化,像接力赛)。实习生跑完第一棒(找目标)时可能出了个小错,但他自己没发现,导致第二棒、第三棒全跑偏了,最后造出一艘根本不能下水的船。
- 乱用工具:他可能会在没有权限的情况下,擅自启动昂贵的超级计算机模拟,或者把重要的实验数据搞乱。
2. Mozi 的解决方案:一个“双层管家系统”
Mozi 的设计者不想让 AI 完全“自由发挥”,而是给它套上了一套严格的“双层管理架构”。你可以把它想象成一个**“总指挥 + 专业施工队”**的组合。
第一层:总指挥(控制平面 Layer A)—— 戴着“紧箍咒”的指挥官
这一层负责管人、管规矩。
- 角色:它像一个严格的项目经理。
- 功能:
- 分派任务:它不会让实习生直接去“造原子”,而是先拆解任务:“先去查文献,再去查数据库,最后再算数据”。
- 权限控制:它手里有一张“通行证”。如果实习生想调用昂贵的模拟工具,总指挥会检查:“你现在的任务需要这个吗?你有权限吗?”如果没有,直接拒绝,防止乱花钱或搞破坏。
- 随时纠错:如果实习生走错了路,总指挥会立刻喊停:“等等,刚才那个数据不对,我们重新规划一下路线。”
第二层:专业施工队(工作流平面 Layer B)—— 按图纸施工的工匠
这一层负责干具体的活,而且必须按图纸(流程图)来。
- 角色:它像一个经验丰富的老工匠团队,手里拿着标准化的“施工图纸”(技能图谱)。
- 功能:
- 标准化流程:新药研发有固定的步骤(比如:先找靶点 -> 再找分子 -> 再优化)。Mozi 把这些步骤做成了自动化的流水线。
- 数据质检:在每一步之间,都有“质检员”。比如,从“找靶点”转到“筛选分子”时,质检员会检查:“你给的蛋白质结构文件是完整的吗?格式对吗?”如果不对,直接退回重做,绝不让错误流向下一环节。
- 人类专家介入(HITL):在关键决策点(比如决定用哪个蛋白质结构),系统会暂停,把方案拿给人类科学家看:“老板,您觉得选这个结构行吗?”得到确认后才继续。这就像在造船的关键节点,必须由总工程师签字才能开工。
3. 它是如何工作的?(一个生动的例子)
假设我们要治疗帕金森病:
- 接任务:Mozi 收到指令:“帮我找治疗帕金森的新药”。
- 总指挥(Layer A)介入:它分析任务,决定启动“帕金森病研发流水线”。它告诉施工队:“第一步,找目标蛋白。”
- 施工队(Layer B)执行:
- 它自动去查数据库,找到了一个叫 LRRK2 的蛋白。
- 人类介入:系统暂停,问科学家:“我们要用 LRRK2 的哪个结构版本?”科学家确认后,继续。
- 筛选分子:
- 系统自动在几百万个化学分子里筛选,或者用 AI“画”出新的分子。
- 自动纠错:如果某个分子在模拟中“爆炸”了(计算失败),系统不会崩溃,而是自动把这个分子标记为“失败”,跳过它,继续处理下一个,保证流水线不停转。
- 优化与过滤:
- 系统发现筛选出的分子虽然有效,但对心脏有毒(hERG 毒性)。
- 智能调整:Mozi 不会硬着头皮继续,而是启动“优化模式”,像炼金术士一样,专门修改分子结构,把“有毒”的部分去掉,同时保留“治病”的功能。
- 最终产出:经过几轮“筛选 - 修改 - 再筛选”,Mozi 最终拿出一个既有效、又安全、还容易生产的分子候选者,并生成一份详细的报告。
4. 为什么 Mozi 很厉害?
- 不再“瞎编”:通过严格的流程控制,它大大减少了 AI 胡编乱造数据的概率。
- 像人一样思考,像机器一样执行:它保留了 AI 的灵活性(能理解复杂的科学问题),但用工程化的手段(流程图、权限控制)保证了结果的可靠性。
- 人机协作:它不是要取代科学家,而是把科学家从繁琐的重复劳动中解放出来,让科学家专注于做关键决策(比如确认方向、审核结果)。
总结
Mozi 就像是一个给 AI 科学家配发的“智能外骨骼”和“安全锁”。
以前的 AI 像是一个狂野的艺术家,画出来的东西可能很美,但没法造出来;
Mozi 把这位艺术家变成了一个严谨的工程师,它依然有创造力,但每一步都经过严格检查,确保造出来的“救命船”真的能在大海里航行。
这项技术有望大大缩短新药研发的时间(从 10 年缩短),并降低数亿美元的成本,让新药更快地来到患者手中。
Each language version is independently generated for its own context, not a direct translation.
Mozi:面向药物发现的受控自主 LLM 智能体架构技术总结
1. 研究背景与问题定义 (Problem)
药物发现是一个高成本、长周期且高度依赖多学科知识的复杂过程。尽管大型语言模型(LLM)在科学推理和工具调用方面展现出潜力,但将其直接应用于药物发现等高风险领域面临两大核心瓶颈:
- 不受约束的工具使用治理 (Unconstrained Tool-Use Governance):通用 LLM 智能体容易产生“工具幻觉”(Hallucinations),即调用不存在的工具或生成无效参数。在严格的科学工作流中,这种概率性的不稳定性会导致执行崩溃或产生不可复现的结果。
- 长程可靠性差 (Poor Long-Horizon Reliability):药物发现流程(从靶点识别到先导化合物优化)具有深度的因果依赖关系。早期阶段的微小错误(如错误的靶点选择)会在后续步骤中呈指数级放大,导致整个计算流程失效。现有的多智能体框架往往缺乏对状态依赖和错误传播的有效控制。
核心挑战:如何在保留 LLM 自由推理灵活性的同时,引入计算生物学所需的确定性严谨性,构建一个既安全又高效的受控自主(Governed Autonomy)系统。
2. 方法论:Mozi 双层架构 (Methodology)
Mozi 提出了一种双层架构(Dual-Layer Architecture),旨在将生成式 AI 的灵活性与计算生物学的确定性相结合。该架构通过模型上下文协议(MCP)连接,分为两个共生层:
2.1 控制层 (Layer A: Control Plane) - 治理与编排引擎
这一层负责处理非结构化的推理上下文,充当“管理者”角色,确保智能体行为符合规范。
- 监督者 - 工作者层级 (Supervisor-Worker Hierarchy):
- 监督者 (Supervisor):作为中央规划器,将用户意图分解为最小必要步骤。它不直接执行工具,而是通过“反思机制”(Reflection)评估每一步的完成情况。如果步骤失败或信息不足,监督者会触发动态重规划(Replanning),而非盲目继续。
- 工作者 (Workers):包括研究工作者(Research Worker)和计算工作者(Computation Worker)。每个工作者拥有独立的上下文窗口和系统提示词。
- 基于角色的工具隔离 (Role-Based Tool Isolation):
- 实施硬编码工具过滤 (Hard-Coded Tool Filtering)。例如,研究工作者只能访问检索类工具,严禁访问高成本的分子对接集群;计算工作者则被限制在特定的计算任务中。
- 通过“严格模式”和“宽松模式”切换,在生产环境中物理限制工具访问权限,防止越权操作。
- 可审计轨迹:记录所有决策路径,确保每一步操作都可追溯且符合组织策略。
2.2 工作流层 (Layer B: Workflow Plane) - 状态化技能图
这一层将抽象的科学协议转化为可执行的、有状态的“技能图”(Skill Graphs),负责管理科学 artifacts(如 PDB 文件、SMILES 字符串)。
- 可组合的状态化技能图 (Composable Stateful Skill Graphs):
- 利用 LangGraph 将药物发现的标准流程(靶点识别、苗头化合物发现、苗头转先导、先导优化)编码为有向无环图(DAG)。
- 状态契约 (State Contracts):节点间强制执行严格的数据格式转换和验证(如确保 PDB 文件无缺失侧链),防止“垃圾进,垃圾出”。
- 核心技能模块:
- 靶点识别 (TI):自动化从疾病名称到 PDB 结构的映射,包括实体归一化和结构准备。
- 苗头识别 (HI):采用并行双流策略。路径 A 使用基于口袋的生成模型(如 DiffSBDD)进行从头设计;路径 B 使用深度学习模型进行高通量虚拟筛选(HTVS)。结果融合去重后输出。
- 苗头转先导 (H2L):通过 R 基团探索和骨架跃迁扩展化学空间,并执行两级过滤(PAINS/REOS 过滤 + ADMET 预测)。
- 先导优化 (LO):基于强化学习(如 REINVENT4)的多目标优化循环,平衡亲和力、类药性(QED)和合成可及性(SAS)。
- 人机回环 (HITL) 检查点:在关键决策边界(如靶点确认、结构选择、最终候选列表生成前)暂停执行,允许人类专家介入验证、修正参数或回滚状态,确保科学有效性。
2.3 数据编织与工具联邦
- 混合状态管理:区分推理上下文(Context State)和实际文件/数据对象(Artifact State),并实施溯源追踪 (Provenance Tracking),记录每个文件的生成来源。
- MCP 平台:作为统一接口层,抽象了异构的生物医学工具(从本地脚本到云端 API),实现了工具的模块化集成和统一调用。
3. 关键贡献 (Key Contributions)
- 受控自主架构 (Governed Autonomy):首次提出将 LLM 的推理灵活性限制在严格的治理框架内,通过“自由推理用于安全任务,结构化执行用于长程流程”的设计原则,解决了科学智能体的幻觉和不可复现问题。
- 双层解耦设计:明确分离了“逻辑编排”(Layer A)与“科学执行”(Layer B),使得系统既能处理复杂的科学工作流,又能保持对错误和状态的严格控制。
- 状态化技能图与 HITL 集成:将药物发现流程编码为有状态图,并嵌入专家干预检查点,显著降低了长程任务中的错误传播风险。
- PharmaBench 基准测试:构建了一个包含 88 个任务(涵盖 TDC 和 HLE 数据集)的基准测试,专门评估药物发现智能体在工具调用、科学推理和长程规划方面的能力。
4. 实验结果 (Results)
4.1 PharmaBench 基准测试
- 分类与 MCQ 任务:Mozi (基于 Qwen3-235B) 在分类任务中达到 33/54 的准确率,显著优于基线模型 Biomni (20/54)。
- 回归任务 (SMAPE):Mozi 在 8 个回归任务上的对称平均绝对百分比误差为 1.169,优于 Biomni 的 1.599,显示出更精准的工具参数处理能力。
- HLE 药物发现子集 (28 个任务):Mozi (Qwen3-235B) 的精确匹配准确率为 17.86% (5/28),优于大多数开源模型基线,且在使用 Deepseek-V3.2 时达到 21.42% (6/28)。这表明 Mozi 在长程科学推理和实验设计知识方面具有优势。
4.2 长程案例研究 (Case Studies)
Mozi 在克罗恩病、帕金森病和败血症三个复杂病例中展示了端到端执行能力:
- 动态适应性:系统能根据任务需求自动切换策略(如帕金森病案例中切换为高通量筛选,克罗恩病案例中使用生成式设计)。
- 错误容错:在败血症案例中,AutoDock Vina 的局部计算崩溃被技能图逻辑捕获并处理,未导致整个工作流中断。
- 多目标优化:在帕金森病案例中,系统识别出早期候选分子的 hERG 毒性风险,并自主通过强化学习导航至更安全的化学空间,最终生成具有优异血脑屏障渗透性和安全性的新分子。
- 对比优势:与 Biomni、K-Dense 等现有平台相比,Mozi 生成的分子在结合亲和力(ipTM 分数)和物理化学约束(如分子量、类药性)上表现更佳,且避免了现有平台常见的“重新发明轮子”或工具调用失败问题。
5. 意义与展望 (Significance)
- 从“聊天机器人”到“受控合作科学家”:Mozi 证明了 LLM 智能体可以通过严格的治理机制,从脆弱的对话工具转变为可靠的、可审计的科研合作伙伴。
- 解决行业痛点:通过引入 HITL 检查点和状态化工作流,Mozi 解决了药物发现中数据碎片化、工作流断裂和人工认知局限的问题,为自动化药物研发提供了新的范式。
- 可复现性与安全性:通过溯源追踪和严格的工具隔离,Mozi 满足了制药行业对可审计性和合规性的高要求,为未来在监管环境下的部署奠定了基础。
- 未来方向:研究团队计划进一步引入不确定性量化(UQ)、自动技能归纳以及更严格的沙箱机制,以提升系统在湿实验合成前的决策可靠性。
总结:Mozi 通过创新的双层架构,成功平衡了 AI 的灵活性与科学严谨性,为构建下一代可信赖的自动化药物发现系统提供了重要的技术蓝图。