Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

Each language version is independently generated for its own context, not a direct translation.

HELIX: De Slimme Ontdekker die Altijd Beter Wordt

Stel je voor dat je een enorme, donkere berg moet beklimmen. De top is de beste oplossing voor een heel moeilijk probleem (zoals het ontwerpen van een nieuwe batterij of het vinden van de perfecte formule voor een medicijn). Maar je kunt de top niet zien, en er zijn duizenden valkuilen en doodlopende paden.

Vroeger hadden we twee manieren om deze berg te beklimmen:

De "Gewone" Reis: Je neemt een kaart (een AI-model) en loopt erop af. Soms loop je vast in een klein dal en denk je dat je de top hebt bereikt, terwijl er nog een hogere piek verderop ligt.
De "Willekeurige" Reis: Je gooit honderden mensen de berg op en hoopt dat één van hen per ongeluk de top vindt. Dit kost veel tijd en energie.

Deze paper introduceert HELIX, een nieuwe manier om deze berg te beklimmen. HELIX is als een slimme expeditiegroep die twee superkrachten combineert: leren van ervaring en evolutie.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Gouden Lijst" (De Populatie)

Stel je voor dat HELIX een groep avonturiers heeft. Elke avonturier probeert een stukje van de berg te beklimmen.

Sommige avonturiers zijn heel goed (ze komen hoog).
Sommige avonturiers zijn heel creatief (ze lopen over paden die niemand eerder zag, zelfs als ze nog niet helemaal boven zijn).

HELIX houdt een lijst bij van alle deze avonturiers. Het kiest niet alleen de hoogste klimmers, maar ook de meest unieke. Waarom? Omdat de beste oplossing misschien nog niet gevonden is, maar wel op een raar pad ligt dat een van de creatieve avonturiers heeft ontdekt. Dit zorgt voor diversiteit: je zoekt niet alleen in één hoekje van de berg, maar overal.

2. De "Spiegelwand" (In-Context Learning)

Dit is het magische deel. Als een avonturier een nieuwe poging doet, krijgt hij niet alleen de opdracht ("Beklim de berg"). Hij krijgt ook een spiegelwand met de beste pogingen van zijn voorgangers.

"Kijk eens hoe Jan de rotswand overwon, en hoe Marie een slimme brug bouwde. Probeer die ideeën te combineren!"

Dit noemen ze In-Context Learning. De AI "leest" de geschiedenis van de expeditie en bouwt daarop voort. Het staat letterlijk op de schouders van reuzen. Hierdoor hoeft het niet bij elke stap bij nul te beginnen; het bouwt op wat er al bekend is.

3. De "Trainer" (Reinforcement Learning)

Tijdens de expeditie krijgt elke avonturier een score: hoe hoger, hoe beter.

Als iemand een slimme stap zet die hoger brengt, krijgt hij een beloning.
De "Trainer" (de AI die de expeditie leidt) kijkt naar deze beloningen en past zijn instructies aan.

Stel je voor dat de trainer zegt: "Hey, de manier waarop jullie die rotssprong maakten werkte goed! Doe dat vaker!" De trainer leert van de succesvolle momenten en wordt steeds slimmer in het geven van goede instructies. Dit is Reinforcement Learning: leren door te proberen en te belonen.

4. De "Slimme Selectie" (NSGA-II)

Soms is een avontuurder niet de hoogste, maar wel de meest creatieve. Als we alleen kijken naar de hoogste, verliezen we de creatieve ideeën die misschien later de sleutel blijken.

HELIX gebruikt een slimme selectiemethode (NSGA-II) die zegt: "We houden de hoogste klimmers, maar we houden ook de creatieve dwarslopers vast, zodat we niet vastlopen in één richting." Dit zorgt ervoor dat de expeditie nooit vastloopt in een lokaal hoogtepunt (een kleine heuveltop) en blijft zoeken naar de échte wereldtop.

Wat heeft HELIX bereikt?

In de paper laten ze zien dat HELIX heel goed werkt:

Wiskundige Puzzels: Het kon cirkels zo efficiënt in een vierkant proppen dat het een wereldrecord brak (met een model dat kleiner is dan veel andere AI's).
Wetenschap: Het ontwierp betere magneten en stroomgeleiders dan menselijke experts vaak doen.
Data: Het vond betere manieren om voorspellingen te doen (bijvoorbeeld: wie koopt een hypotheek?) dan de beste bestaande methoden.

Samenvattend

HELIX is als een onuitputtelijke, slimme zoektocht.

Het leert van elke fout en elk succes (Reinforcement Learning).
Het onthoudt de beste ideeën en gebruikt ze als springplank (In-Context Learning).
Het houdt een grote, diverse groep ideeën in stand zodat het nooit vastloopt (Evolutionary Search).

In plaats van één slimme AI die alleen maar raadt, hebben we nu een systeem dat samenwerkt, leert en evolueert, net als de beste wetenschappers ter wereld, maar dan veel sneller en zonder slaap. Het is de toekomst van het oplossen van de moeilijkste problemen in de wetenschap.

Each language version is independently generated for its own context, not a direct translation.

Titel: HELIX: Evolutionaire Versterkende Leer voor Open-ended Wetenschappelijk Probleemoplossing

Publicatie: ICLR 2026
Auteurs: Chang Su, Zhongkai Hao, Zhizhou Zhang, et al. (Tsinghua University & Bosch)

1. Het Probleem

Grote Taalmodellen (LLMs) met redeneercapaciteiten tonen veelbelovende resultaten bij complexe wetenschappelijke taken, zoals symbolische regressie, moleculaire generatie en wiskundige optimalisatie. Echter, deze taken hebben drie intrinsieke eigenschappen die bestaande methoden onder druk zetten:

Domeinspecifiek: Elke taak heeft unieke omgevingen en beperkingen.
Open-ended: Er is geen vaststaand einddoel; de oplossingsruimte is enorm en flexibel.
Onbegrensd: Er is vaak geen bekende of gegarandeerde globale optimum.

Bestaande aanpakken falen vaak op deze fronten:

Post-training methoden (zoals SFT of RLVR) lijden vaak onder "entropie-collaps", waardoor ze stoppen met het verkennen van nieuwe oplossingen en vastlopen in lokale optima.
Workflow-gedreven methoden (zoals vaste pipelines met evolutionaire algoritmen) zijn te afhankelijk van handmatig ontworpen workflows en kunnen eerdere ontdekkingen niet effectief hergebruiken om iteratief te zoeken.

Er is behoefte aan een systeem dat ervaring leert, diversiteit behoudt en voortbouwt op bestaande hoogwaardige oplossingen ("op de schouders van reuzen").

2. Methodologie: Het HELIX Framework

HELIX (Hierarchical Evolutionary Learning framework with In-context eXperiences) is een hybride raamwerk dat versterkende leer (RL) combineert met evolutionaire zoekalgoritmen en in-context learning. Het doel is om LLM's te laten leren van eerdere pogingen terwijl ze een diverse populatie van kandidaat-oplossingen onderhouden.

Het framework bestaat uit drie kernmodules:

A. Versterkende Leer (RL) voor Beleidsoptimalisatie

In plaats van statische prompts, gebruikt HELIX een RL-cyclus om het beleid ( $\pi_\theta$ ) van de LLM te updaten.

GRPO (Group Relative Policy Optimization): Het paper gebruikt GRPO om het beleid te trainen op basis van verifieerbare beloningen (rewards).
In-Context Learning: De prompt ( $q$ ) voor de LLM wordt dynamisch samengesteld. Deze bevat niet alleen de taakbeschrijving, maar ook een "stamboom" (lineage tree) van eerdere pogingen, inclusief hun beloningen en feedback. Dit stelt het model in staat om te leren van succesvolle en mislukte pogingen in dezelfde sessie.
Doel: Het model leert om huidige oplossingen iteratief te verbeteren door acties (code-editen) te kiezen die de beloning maximaliseren.

B. Evolutionaire Selectie voor Diversiteit en Kwaliteit

Om te voorkomen dat het model vastloopt in lokale optima (een veelvoorkomend probleem bij RL), wordt een multi-objectieve selectiestrategie gebruikt.

NSGA-II: Het paper past het NSGA-II-algoritme toe om een populatie van oplossingen te selecteren op basis van twee doelen: Beloning (Kwaliteit) en Diversiteit.
Diversiteitsmeting: Diversiteit wordt niet op basis van simpele tekstuele overeenkomst gemeten, maar via semantische embeddings. Een vooraf getraind taalmodel encodeert de oplossingen (bijv. code) in vectorruimten. De diversiteitsscore wordt berekend op basis van de gemiddelde afstand tot de $k$ -naaste buren in deze ruimte.
Pareto-front: NSGA-II selecteert oplossingen die op de Pareto-front liggen, wat betekent dat ze zowel hoogscoren qua kwaliteit als uniek genoeg zijn om de zoekruimte te verkennen.

C. Synergie tussen RL en Evolutie

HELIX creëert een gesloten lus:

De LLM genereert een populatie van oplossingen (rollouts) gebaseerd op de huidige prompt.
Deze oplossingen worden beoordeeld en gesorteerd op basis van beloning en diversiteit (NSGA-II).
De beste en meest diverse oplossingen worden gebruikt om het RL-beleid te updaten (via GRPO).
De geüpdatete prompt (met de beste eerdere oplossingen) wordt gebruikt voor de volgende iteratie.

3. Belangrijkste Bijdragen

Nieuw Framework: Introductie van HELIX, dat versterkende leer en evolutionaire algoritmen naadloos integreert via in-context learning.
Diversiteitsbewuste RL: Een innovatieve aanpak waarbij diversiteit (gemeten via embeddings) expliciet wordt meegenomen in de selectie, wat "entropie-collaps" voorkomt en de exploratie van de oplossingsruimte verbetert.
State-of-the-Art Resultaten: Het framework behaalt nieuwe wereldrecords op complexe taken, zelfs met relatief kleine modellen (14B parameters).
Theoretische Analyse: Het paper biedt een wiskundige analyse die aantoont dat HELIX (als een drift-diffusie proces) sneller convergeert naar de globale optimum dan pure evolutionaire methoden (die puur op selectie vertrouwen).

4. Resultaten

Het framework werd getest op 20 taken verdeeld over 5 categorieën: Machine Learning, Fysica-simulatie, Cirkelpacking, Functieminimalisatie en Symbolische Regressie.

Cirkelpacking (Circle Packing): Op de taak om 26 cirkels in een eenheidsvierkant te packen, behaalde HELIX met een 14B model een som van stralen van 2.63598308. Dit is een nieuw wereldrecord en verbetert de vorige beste resultaten aanzienlijk.
Machine Learning: Op datasets zoals Adult Income en Bank Marketing overtrof HELIX (met een 14B model) GPT-4o met een zorgvuldig ontworpen pipeline. De gemiddelde F1-score verbetering was 5.95 punten op deze datasets.
Fysica-simulatie: HELIX vond superieure geometrische ontwerpen voor inductors, balken en magnetische torque-optimalisatie, vaak met significante verbeteringen ten opzichte van gespecialiseerde baselines en GPT-4o.
Vergelijking met Baselines: HELIX presteerde beter dan:
- Direct Prompting (met 64 samples).
- OpenEvolve (een open-source implementatie van AlphaEvolve).
- Gespecialiseerde handmatige methoden (zoals LightGBM of SLSQP).
- Propriëtaire modellen zoals GPT-4o.

5. Significantie en Conclusie

HELIX demonstreert dat het combineren van versterkende leer met evolutionaire selectie en in-context learning een krachtige route is voor open-ended wetenschappelijke ontdekking.

Efficiëntie: Het kan complexe problemen oplossen met kleinere, goedkopere modellen (14B) die vaak beter presteren dan veel grotere modellen die geen adaptieve leer hebben.
Adaptiviteit: Het systeem kan zich aanpassen aan nieuwe domeinen zonder dat er nieuwe data nodig is voor finetuning; het leert puur via de interactiecyclus en de prompt-constructie.
Toekomstperspectief: De methode biedt een fundamenteel raamwerk voor autonome wetenschappelijke systemen die kunnen exploreren in onbegrensde oplossingsruimten, wat grote implicaties heeft voor engineering, materiaalwetenschap en geautomatiseerd onderzoek.

Kortom, HELIX overwint de beperkingen van statische LLM's en pure evolutionaire algoritmen door een dynamische, leerzame cyclus te creëren die zowel kwaliteit als innovatie (diversiteit) maximaliseert.