Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

El artículo presenta RePO, un nuevo enfoque de optimización que combina aprendizaje por refuerzo con recompensas verificables y guía supervisada basada en referencias para superar las limitaciones de los modelos de lenguaje actuales en la optimización de moléculas, logrando un mejor equilibrio entre la exploración de nuevas estructuras y la explotación de referencias existentes sin necesidad de datos de trayectoria.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han

Publicado 2026-03-09
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un chef de cocina muy inteligente (el modelo de lenguaje o LLM) al que le pides que cree una receta nueva basada en una que ya existe.

El objetivo es: Mejorar el sabor de la receta (optimizar una propiedad química), pero sin cambiar tanto los ingredientes que ya no se parezca a la original (mantener la similitud estructural).

El problema es que el chef, aunque es muy listo, a veces se pierde:

  1. Si solo le das la receta final perfecta sin explicarle cómo la hizo, el chef se vuelve perezoso y deja de pensar en los pasos intermedios (solo copia la respuesta).
  2. Si le dices "prueba mil cosas hasta que salga algo bueno" sin darle una referencia, el chef se vuelve demasiado conservador y solo hace cambios minúsculos que no mejoran nada, o se pierde en un laberinto gigante de ingredientes posibles.

Aquí es donde entra el RePO (Optimización de Política Guiada por Referencia), la solución que proponen en este paper.

🍳 La Analogía del Chef y el "Chef Maestro"

Imagina que quieres mejorar un pastel. Tienes un Pastel Original y un Pastel de Referencia (el ejemplo de éxito que te dan en el dataset).

  • El problema de los métodos antiguos (SFT y RLVR):

    • Método A (Solo copiar): Le dices al chef: "Haz exactamente este pastel de referencia". El chef lo copia, pero deja de pensar por qué es bueno. Si le pides que lo mejore, no sabe cómo empezar porque solo sabe copiar.
    • Método B (Solo probar a ciegas): Le dices: "Prueba mil combinaciones y si el pastel sabe mejor, repítelo". Como hay millones de combinaciones posibles, el chef se asusta. Solo prueba cambios muy pequeños (como cambiar una pizca de sal) por miedo a arruinarlo, y nunca logra un pastel espectacular.
  • La solución RePO (El Chef con un Asistente):
    RePO es como tener un sistema de entrenamiento híbrido para el chef:

    1. La Exploración (El RL): Le permitimos al chef probar sus propias ideas y crear nuevos pasteles. Si un pastel sale delicioso (mejora la propiedad), le damos una medalla (recompensa). Esto le anima a explorar y ser creativo.
    2. La Guía (La Referencia): Pero, ¡ojo! Mientras el chef piensa en los pasos (el "razonamiento"), le mostramos el Pastel de Referencia al final. Le decimos: "Piensa todo lo que quieras, pero asegúrate de que tu resultado final se parezca a este ejemplo de éxito".

¿Cómo funciona mágicamente?

El truco de RePO es que no le dice al chef cómo pensar paso a paso, solo le dice qué resultado final buscar.

  • Sin atascar el pensamiento: El chef sigue usando su propia lógica para decidir qué ingredientes cambiar (el razonamiento). No le copian la receta mental, solo le dan un objetivo claro.
  • Evitar el caos: Como tiene el ejemplo de referencia como "ancla", no se pierde en combinaciones imposibles o tóxicas. Sabe que debe mantener la estructura base.

🏆 ¿Qué lograron?

En sus pruebas (como en un concurso de química llamado TOMG-Bench), este nuevo método (RePO) fue mucho mejor que los anteriores:

  • Encontró mejores recetas: Logró mejorar más las propiedades de las moléculas (como hacerlas más efectivas como medicamentos).
  • Mantuvo la esencia: Las moléculas nuevas seguían pareciéndose a las originales (no se rompieron las reglas químicas).
  • Aprendió a pensar: A diferencia de los otros métodos que dejaron de razonar, RePO mantuvo la capacidad del modelo de explicar por qué hizo los cambios (ej: "Cambiamos el bromo por cloro para reducir el peso").

En resumen

Imagina que estás aprendiendo a conducir un coche de carreras.

  • Los métodos viejos te decían: "Copia exactamente el trayecto del campeón" (y dejabas de pensar) O "Maneja a lo loco hasta que ganes" (y te estrellabas).
  • RePO te dice: "Maneja libremente, explora la pista y prueba nuevas rutas, pero ten siempre en la mira la meta del campeón para asegurarte de que llegas bien".

Gracias a esto, la Inteligencia Artificial puede ahora ayudar a los científicos a diseñar nuevos medicamentos y materiales de forma más rápida, segura y creativa, entendiendo mejor la química detrás de sus decisiones.