Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

Het paper introduceert HELIX, een hiërarchisch evolutionair reinforcement learning-framework dat in-context ervaringen combineert met beleidsverfijning om open-ended wetenschappelijke problemen effectiever op te lossen dan bestaande methoden, zoals aangetoond door state-of-the-art resultaten op de cirkelpakkingstaak en verbeterde prestaties op machine learning-benchmarks.

Chang Su, Zhongkai Hao, Zhizhou Zhang, Zeyu Xia, Youjia Wu, Hang Su, Jun Zhu

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

HELIX: De Slimme Ontdekker die Altijd Beter Wordt

Stel je voor dat je een enorme, donkere berg moet beklimmen. De top is de beste oplossing voor een heel moeilijk probleem (zoals het ontwerpen van een nieuwe batterij of het vinden van de perfecte formule voor een medicijn). Maar je kunt de top niet zien, en er zijn duizenden valkuilen en doodlopende paden.

Vroeger hadden we twee manieren om deze berg te beklimmen:

  1. De "Gewone" Reis: Je neemt een kaart (een AI-model) en loopt erop af. Soms loop je vast in een klein dal en denk je dat je de top hebt bereikt, terwijl er nog een hogere piek verderop ligt.
  2. De "Willekeurige" Reis: Je gooit honderden mensen de berg op en hoopt dat één van hen per ongeluk de top vindt. Dit kost veel tijd en energie.

Deze paper introduceert HELIX, een nieuwe manier om deze berg te beklimmen. HELIX is als een slimme expeditiegroep die twee superkrachten combineert: leren van ervaring en evolutie.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gouden Lijst" (De Populatie)

Stel je voor dat HELIX een groep avonturiers heeft. Elke avonturier probeert een stukje van de berg te beklimmen.

  • Sommige avonturiers zijn heel goed (ze komen hoog).
  • Sommige avonturiers zijn heel creatief (ze lopen over paden die niemand eerder zag, zelfs als ze nog niet helemaal boven zijn).

HELIX houdt een lijst bij van alle deze avonturiers. Het kiest niet alleen de hoogste klimmers, maar ook de meest unieke. Waarom? Omdat de beste oplossing misschien nog niet gevonden is, maar wel op een raar pad ligt dat een van de creatieve avonturiers heeft ontdekt. Dit zorgt voor diversiteit: je zoekt niet alleen in één hoekje van de berg, maar overal.

2. De "Spiegelwand" (In-Context Learning)

Dit is het magische deel. Als een avonturier een nieuwe poging doet, krijgt hij niet alleen de opdracht ("Beklim de berg"). Hij krijgt ook een spiegelwand met de beste pogingen van zijn voorgangers.

  • "Kijk eens hoe Jan de rotswand overwon, en hoe Marie een slimme brug bouwde. Probeer die ideeën te combineren!"

Dit noemen ze In-Context Learning. De AI "leest" de geschiedenis van de expeditie en bouwt daarop voort. Het staat letterlijk op de schouders van reuzen. Hierdoor hoeft het niet bij elke stap bij nul te beginnen; het bouwt op wat er al bekend is.

3. De "Trainer" (Reinforcement Learning)

Tijdens de expeditie krijgt elke avonturier een score: hoe hoger, hoe beter.

  • Als iemand een slimme stap zet die hoger brengt, krijgt hij een beloning.
  • De "Trainer" (de AI die de expeditie leidt) kijkt naar deze beloningen en past zijn instructies aan.

Stel je voor dat de trainer zegt: "Hey, de manier waarop jullie die rotssprong maakten werkte goed! Doe dat vaker!" De trainer leert van de succesvolle momenten en wordt steeds slimmer in het geven van goede instructies. Dit is Reinforcement Learning: leren door te proberen en te belonen.

4. De "Slimme Selectie" (NSGA-II)

Soms is een avontuurder niet de hoogste, maar wel de meest creatieve. Als we alleen kijken naar de hoogste, verliezen we de creatieve ideeën die misschien later de sleutel blijken.

HELIX gebruikt een slimme selectiemethode (NSGA-II) die zegt: "We houden de hoogste klimmers, maar we houden ook de creatieve dwarslopers vast, zodat we niet vastlopen in één richting." Dit zorgt ervoor dat de expeditie nooit vastloopt in een lokaal hoogtepunt (een kleine heuveltop) en blijft zoeken naar de échte wereldtop.

Wat heeft HELIX bereikt?

In de paper laten ze zien dat HELIX heel goed werkt:

  • Wiskundige Puzzels: Het kon cirkels zo efficiënt in een vierkant proppen dat het een wereldrecord brak (met een model dat kleiner is dan veel andere AI's).
  • Wetenschap: Het ontwierp betere magneten en stroomgeleiders dan menselijke experts vaak doen.
  • Data: Het vond betere manieren om voorspellingen te doen (bijvoorbeeld: wie koopt een hypotheek?) dan de beste bestaande methoden.

Samenvattend

HELIX is als een onuitputtelijke, slimme zoektocht.

  • Het leert van elke fout en elk succes (Reinforcement Learning).
  • Het onthoudt de beste ideeën en gebruikt ze als springplank (In-Context Learning).
  • Het houdt een grote, diverse groep ideeën in stand zodat het nooit vastloopt (Evolutionary Search).

In plaats van één slimme AI die alleen maar raadt, hebben we nu een systeem dat samenwerkt, leert en evolueert, net als de beste wetenschappers ter wereld, maar dan veel sneller en zonder slaap. Het is de toekomst van het oplossen van de moeilijkste problemen in de wetenschap.