Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training

Este trabajo propone RapTB, un nuevo objetivo de equilibrio de trayectorias que mejora la asignación de crédito a los prefijos, y SubM, una estrategia de reposición de memoria submodular para mitigar el sesgo en la distribución de entrenamiento, logrando así entrenar GFlowNets más estables y diversos para la generación de moléculas con modelos de lenguaje grandes.

Xi Wang, Wenbo Lu, Shengjie Wang

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás entrenando a un chef robot (una Inteligencia Artificial) para que invente nuevas recetas de cocina (en este caso, moléculas químicas o frases). Tu objetivo no es que el chef solo haga una receta perfecta, sino que explore miles de opciones diferentes, todas de alta calidad, para encontrar la mejor combinación posible.

El problema es que, hasta ahora, estos chefs robóticos tenían dos defectos graves:

  1. Se volvían "copiones" (Colapso de prefijos): En cuanto aprendían una frase inicial que funcionaba un poco bien (ej: "El gato..."), se quedaban pegados en ella y escribían la misma frase una y otra vez, cambiando solo la última palabra. Perderon la creatividad.
  2. Se obsesionaban con el tamaño (Sesgo de longitud): O bien hacían recetas muy cortas y sin sabor, o bien escribían libros enteros que nadie quería leer, solo porque el sistema de recompensa los empujaba a hacerlo.

Los autores de este paper, RapTB y SubM, son como dos nuevos entrenadores que arreglan estos problemas. Aquí te explico cómo funcionan con analogías sencillas:

1. RapTB: El Entrenador que da "Feedback" Constante

Imagina que el chef está cocinando.

  • El problema antiguo (TB): El entrenador solo le decía "¡Bien hecho!" o "¡Mal hecho!" al final de la receta completa. Si la receta era larga, el chef no sabía qué paso específico (¿poner sal? ¿hervir agua?) fue el que hizo la diferencia. Esto causaba que el chef adivinara mal y se volviera inseguro o repetitivo.
  • La solución RapTB: Este nuevo entrenador usa una técnica llamada "Absorción de Sufijos". Imagina que el entrenador mira el final de la receta (que sabe que es deliciosa) y le dice al chef: "Oye, como el final fue tan bueno, asumo que el paso 3 y el paso 5 también fueron geniales".
    • Le da crédito a cada paso intermedio basándose en lo bueno que fue el final.
    • Además, solo se enfoca en las recetas que empiezan desde el principio (raíz), evitando confundir al chef con instrucciones contradictorias sobre cómo empezar recetas a mitad de camino.
    • Resultado: El chef aprende más rápido, no se atasca en una sola frase inicial y entiende mejor qué pasos son importantes.

2. SubM: El Curador de la Biblioteca de Recetas

Ahora imagina que el chef tiene un cuaderno de notas (un "buffer de repetición") donde guarda las mejores recetas que ha hecho para estudiarlas después.

  • El problema antiguo: El chef tendía a guardar solo las 10 recetas más puntuadas. Si todas esas 10 recetas eran "Pasta con tomate", el chef estudiaría solo eso y nunca aprendería a hacer "Sushi" o "Pizza", aunque fueran buenas opciones. Se volvía un experto en una sola cosa y perdía la diversidad.
  • La solución SubM: Este entrenador usa una estrategia matemática llamada "Submodular". Imagina que es un curador de museo muy inteligente. Cuando llega una nueva receta, el curador no solo pregunta "¿Es deliciosa?". También se pregunta:
    • "¿Ya tenemos algo muy parecido a esto?" (Si sí, no la guarda).
    • "¿Tenemos recetas de postres?" (Si no, prioriza guardar un postre aunque sea un poco menos delicioso).
    • "¿Tenemos recetas largas y cortas?" (Busca equilibrio).
    • Resultado: El cuaderno de notas del chef se llena de una mezcla variada: recetas largas, cortas, de diferentes sabores y estilos. Esto obliga al chef a aprender a ser creativo y no solo a repetir lo que ya sabe.

El Resultado Final: Un Chef Maestro

Cuando combinas a RapTB (el entrenador que da feedback constante y preciso) con SubM (el curador que asegura variedad en el estudio), ocurre la magia:

  • En la generación de moléculas (como fármacos): El sistema descubre moléculas nuevas, complejas y muy efectivas, en lugar de repetir las mismas estructuras simples.
  • En la generación de texto: Escribe frases que tienen sentido, con la longitud adecuada, y con una gran variedad de ideas, sin quedarse atascado en clichés.

En resumen:
El paper nos dice que para que una IA sea realmente creativa y útil, no basta con premiarla solo al final del trabajo. Necesitamos darle pistas intermedias inteligentes (RapTB) y asegurarnos de que estude una variedad amplia de ejemplos (SubM), en lugar de solo los más obvios. Así, la IA deja de ser un robot repetitivo y se convierte en un verdadero explorador creativo.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →