Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Dit paper introduceert Reference-guided Policy Optimization (RePO), een nieuwe methode die de zwaktes van bestaande technieken oplost door het combineren van verifieerbare beloningen voor exploratie en referentiesturing voor exploitatie, waardoor Large Language Models effectiever kunnen worden getraind voor moleculaire optimalisatie zonder stap-voor-stap trainingsdata.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chemisch meesterwerk moet maken. Je hebt een bestaand recept (een molecule) en je wilt het een beetje aanpassen om het "beter" te maken. Misschien moet het effectiever zijn tegen een ziekte, of makkelijker oplosbaar in water. Maar er is een belangrijke regel: je mag het recept niet zomaar volledig herschrijven. Het moet nog steeds op het origineel lijken, anders werkt het niet meer als medicijn.

Dit is de uitdaging van moleculaire optimalisatie. En dit is waar de nieuwe methode RePO (Reference-guided Policy Optimization) om de hoek komt kijken, zoals beschreven in dit paper.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Gouden Eend" en de "Blinde Vlek"

Stel je voor dat je een chef-kok bent die een nieuw gerecht moet bedenken op basis van een bestaand recept. Je hebt een "voorbeeldrecept" (de referentie) dat perfect is, maar je krijgt alleen het eindresultaat te zien. Je krijgt geen stap-voor-stap uitleg van de chef over hoe hij het heeft gemaakt.

  • De oude methode (SFT): De chef probeert het eindresultaat na te bootsen. Hij leert het recept uit zijn hoofd, maar hij stopt met nadenken over waarom bepaalde ingrediënten erin zitten. Hij wordt een robot die alleen het antwoord geeft, zonder de creatieve redenering. Hij durft geen nieuwe combinaties te proberen.
  • De andere oude methode (RLVR/GRPO): De chef krijgt een puntensysteem. Als het gerecht lekkerder is, krijgt hij een punt. Maar omdat de keuken zo groot is, is het bijna onmogelijk om per ongeluk een perfect gerecht te maken zonder hulp. De chef blijft daarom heel conservatief: hij verandert bijna niets, want hij durft niet te experimenteren uit angst dat hij faalt. Hij blijft hangen in de "veilige zone".

Het resultaat? Ofwel een robot die niet creatief is, ofwel een chef die te bang is om iets nieuws te proberen.

2. De Oplossing: RePO (De Slimme Mentor)

De auteurs van dit paper hebben een nieuwe manier bedacht, RePO, die de beste van beide werelden combineert. Ze gebruiken een slimme mentor die twee dingen doet tegelijk:

Deel A: De "Vrije Ruimte" (Verkenning)

De chef mag eerst vrijuit experimenteren. Hij mag 10 verschillende variaties van het gerecht bedenken. Hij krijgt een score voor elke variatie:

  • Is het lekkerder? (Beter voor het medicijn)
  • Lijkt het nog op het origineel? (Niet te veel veranderd)
    Als een variatie goed scoort, krijgt de chef een beloning. Dit moedigt hem aan om nieuwe paden te verkennen in plaats van alleen maar veilig te spelen.

Deel B: De "Anker" (Referentie)

Hier komt het slimme deel. Terwijl de chef experimenteert, houdt de mentor het voorbeeldrecept (de referentie) in de gaten.

  • De mentor zegt niet: "Doe precies wat ik deed."
  • De mentor zegt wel: "Zorg dat je eindresultaat vergelijkbaar is met dit voorbeeld, maar gebruik je eigen redenering om daar te komen."

Dit is als een anker. Het houdt de chef vast aan de goede kant (zodat hij niet verdwaalt in de grote oceaan van mogelijke recepten), maar laat hem vrij om zijn eigen route te kiezen om daar te komen.

3. Waarom werkt dit zo goed?

In het paper zien ze drie grote voordelen:

  1. Het voorkomt "leeg denken": De chef blijft niet steken in korte, saaie antwoorden. Hij leert weer om stap-voor-stap na te denken over de chemie (bijvoorbeeld: "Als ik deze groep vervang door een andere, wordt het molecuul stabieler").
  2. Het voorkomt "angst voor verandering": Omdat de mentor het voorbeeldrecept gebruikt als leidraad, durft de chef grotere sprongen te maken dan alleen met het puntensysteem. Hij weet dat hij ergens naartoe moet, maar hij mag zelf de weg vinden.
  3. Het werkt zelfs als de instructies raar zijn: Zelfs als iemand vraagt om een heel vreemd soort aanpassing (een "nieuwe instructiestijl"), kan de chef dit aan. Hij heeft geleerd hoe hij moet redeneren, niet alleen wat hij moet zeggen.

De Gouden Kooi-analogie

Stel je voor dat je een vogel (het AI-model) in een enorme kooi (de chemische ruimte) hebt.

  • Oude methode 1: Je geeft de vogel een foto van een andere vogel en zegt: "Wees precies zo." De vogel stopt met vliegen en zit alleen maar te staren.
  • Oude methode 2: Je zegt: "Vlieg maar rond, als je een mooie plek vindt, krijg je een zadenbeloning." De vogel durft niet weg te vliegen omdat de kooi te groot is en hij geen zaden ziet.
  • RePO: Je hangt een treklijn naar een bekende, veilige plek (het voorbeeld), maar je laat de vogel zelf beslissen hoe hij daarheen vliegt. Hij mag door de lucht zwieren, maar de lijn zorgt dat hij niet verdwaalt. Zo leert hij vliegen én vindt hij de beste plekken.

Conclusie

Dit paper introduceert RePO, een methode die AI-modellen helpt om betere medicijnen te ontwerpen. Het combineert de kracht van vrij experimenteren (zodat ze nieuwe ideeën vinden) met slimme begeleiding (zodat ze niet de weg kwijtraken).

Het resultaat? AI's die niet alleen antwoorden geven, maar ook verstandig redeneren over chemie, en dat doen met een balans tussen creativiteit en veiligheid. Het is alsof we een chemische chef-kok hebben getraind die zowel een kunstenaar als een wetenschapper is.