Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

该论文针对大语言模型在分子优化任务中因缺乏轨迹数据而导致推理能力退化和奖励稀疏的问题,提出了一种名为 RePO 的参考引导策略优化方法,通过结合强化学习与参考分子引导的混合训练机制,在无需轨迹数据的情况下有效平衡了探索与利用,显著提升了分子优化的成功率与泛化性能。

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RePO(参考引导策略优化)的新方法,旨在帮助人工智能(LLM)更好地进行分子优化

为了让你轻松理解,我们可以把这项研究想象成**“教一个化学天才学生如何改良新药配方”**的过程。

1. 核心难题:只有“满分答案”,没有“解题步骤”

想象一下,你是一位化学老师,手里有一堆题目。每道题都给了一个原始分子(比如一个普通的药丸),要求你修改它,让它药效更好(比如溶解度更高),但同时不能改变它的核心结构(否则就不是原来的药了)。

  • 现状:你的教材里,每道题只给了一个**“标准答案”(一个修改好的完美分子),但完全没有解题过程**。
  • 问题
    • 方法 A(死记硬背/SFT):如果你让学生只背这个“标准答案”,他确实能写出那个分子,但他完全不懂化学原理。下次换个题目,他就不会了,甚至可能写出化学上不存在的“假分子”。
    • 方法 B(盲目试错/RLVR):如果你让学生自己瞎猜,每猜一次就告诉他“对”或“错”。但在浩瀚的化学世界里,猜对(既有效又结构相似)的概率极低。学生试了几万次都得不到一次“对”的反馈,很快就放弃思考,只会做最保守的微小改动,根本学不到东西。

论文发现:现有的 AI 训练方法,要么让学生变成只会背答案的“书呆子”(失去了推理能力),要么让学生在茫茫大海里迷路(因为反馈太少,学不动)。

2. RePO 的解决方案:给“参考答案”加上“导航仪”

RePO 就像是一位超级导师,它把上述两种方法结合了起来,发明了一套独特的教学策略:

核心比喻:修路指南

想象你要从起点 A(原始分子)走到终点 B(优化后的分子)。

  • 标准答案(Reference):告诉你终点 B 长什么样。
  • AI 的推理(Reasoning):学生自己思考“我该往哪走?”。

RePO 的做法是:

  1. 鼓励探索(RL 部分):让学生自己动脑筋,尝试各种可能的路线(生成不同的分子结构)。如果学生走对了路(分子性质变好了),就给他发金币(奖励)。这保证了学生不会只死记硬背,而是真的在思考。
  2. 参考引导(Reference Guidance 部分):这是关键创新!虽然学生可以随便想路线,但最后的答案必须和“标准答案”在结构上保持某种联系。
    • 这就好比导师对学生说:“你可以自由思考怎么修路,但终点站必须建在标准答案附近。如果你走偏了,我就把你拉回来一点。”
    • 好处:这解决了“反馈太少”的问题。因为即使学生没完全走对,只要他往“标准答案”的方向努力,就能得到指导,不会在黑暗中摸索太久。

3. 为什么 RePO 这么厉害?

论文通过实验证明,RePO 就像是一个既聪明又听话的学生:

  • 它不“死板”:它不会像死记硬背的学生那样,只会机械地复制答案。它能生成合理的推理过程(比如:“因为溴原子太大,所以我把它换成氯原子,这样空间位阻变小了”)。
  • 它不“迷路”:它不会像盲目试错的学生那样,在化学世界里乱撞。因为有“参考引导”,它知道大方向在哪,能更快地找到既有效又安全的分子。
  • 它“举一反三”:即使遇到没见过的题目类型(比如新的指令风格),它也能凭借学到的化学原理和导航策略,给出很好的答案。

4. 总结:一场完美的“平衡术”

这篇论文的核心思想就是平衡

  • 在**“自由探索”(尝试新分子)和“利用已知”**(参考标准答案)之间找到了完美的平衡点。

一句话总结
RePO 就像给 AI 化学家配了一副**“有导航的望远镜”**——既允许它自由地探索未知的化学宇宙,又时刻提醒它不要偏离正确的轨道,从而高效地创造出既新颖又安全的药物分子。

这项技术对于加速新药研发、材料科学发现具有巨大的潜力,因为它让 AI 真正学会了“像化学家一样思考”,而不仅仅是“像复印机一样输出”。