Oorspronkelijke auteurs: Ming Du, Xiangyu Yin, Yanqi Luo, Dishant Beniwal, Songyuan Tang, Hemant Sharma, Mathew J. Cherukara

Gepubliceerd 2026-05-13

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Ming Du, Xiangyu Yin, Yanqi Luo, Dishant Beniwal, Songyuan Tang, Hemant Sharma, Mathew J. Cherukara

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een wetenschapper bent die in een lab werkt. Je hebt een enorme berg rommelige, ingewikkelde data—zoals duizenden wazige foto's van kleine kristallen of röntgenfoto's die eruitzien als ruis op een oude tv. Om deze data begrijpelijk te maken, heb je een specifieke set instructies nodig (een algoritme) om het op te schonen, patronen te vinden of dingen te meten.

Normaal gesproken zou je een computerprogrammeur moeten inhuren om deze instructies voor je te schrijven. Maar wat als je gewoon in gewone Engelse taal kunt beschrijven wat je nodig hebt, en een robotwetenschapper de code zou bedenken, het zou testen, fouten zou repareren en je een werkend hulpmiddel zou geven?

Dat is precies wat CVEvolve doet.

Hier is een eenvoudige uitleg van hoe het werkt, met behulp van alledaagse analogieën:

1. Het Probleem: De "Rommelige Keuken"

Wetenschappelijke data is vaak ongestructureerd. Het is ruisig, heeft vreemde kleuren, of komt in formaten die standaardcomputerprogramma's niet begrijpen. Vakwetenschappers (zoals biologen of fysici) zijn experts op hun vakgebied, maar ze zijn niet altijd experts in programmeren. Proberen code te schrijven om hun specifieke dataproblemen op te lossen, is als proberen een speciale oven te bouwen om slechts één specifiek soort taart te bakken. Het is moeilijk, traag en vereist vaardigheden die ze misschien niet hebben.

2. De Oplossing: De "Autonome Kok"

CVEvolve is een AI-systeem dat is ontworpen om die autonome kok te zijn. Je geeft het de "ingrediënten" (je ruwe data) en een "receptdoel" (bijvoorbeeld: "vind de heldere vlekken in deze röntgenfoto's"). Het raadt niet zomaar; het bouwt actief, test en verbetert zijn eigen "recept" (het algoritme) keer op keer.

3. Hoe Het Leert: De "Drie-Stappen Dans"

In plaats van zomaar willekeurige dingen te proberen, gebruikt CVEvolve een slimme strategie met drie hoofdmanoeuvres, vergelijkbaar met hoe een mens een puzzel zou oplossen:

Genereer (De Wilde Uitvinder): De AI probeert een volledig nieuwe manier te bedenken om het probleem vanaf nul op te lossen. Het is als brainstormen over een gloednieuw idee.
Stel Af (De Fijnstellers): Als het een oplossing vindt die redelijk werkt, probeert het de knoppen en schakelaars te verstellen om het beter te laten werken. Het is als het aanpassen van de kruiden in een soep die al goed is.
Evolveer (De Mixer): Het neemt twee verschillende oplossingen die goed werken en probeert de beste onderdelen ervan te combineren tot een nieuwe, super-oplossing. Het is als het mengen van de beste onderdelen van twee verschillende recepten om een meesterwerk te creëren.

4. De Geheime Saus: "Stamboom" en "Stochastische Steekproefneming"

Het artikel noemt iets dat "stochastische kandidaat-steekproefneming met stamboomkennis" wordt genoemd. Hier is een eenvoudige manier om erover na te denken:

Stel je een stamboom van oplossingen voor. Sommige oplossingen zijn "ouders", en de nieuwe zijn hun "kinderen".

De Valstrik: Normaal gesproken wordt AI hebzuchtig. Het kiest alleen de absoluut best presterende oplossing om de volgende te maken. Dit is als alleen naar de nummer 1-hit op de radio luisteren; je mist misschien een verborgen pareltje dat gewoon wat meer tijd nodig heeft om te schitteren.
De CVEvolve-oplossing: CVEvolve gebruikt een beetje "gecontroleerde willekeur" (zoals het gooien van een dobbelsteen). Het kiest soms een oplossing die op dit moment niet de allerbeste is, voor het geval die "underdog" een verborgen potentieel heeft dat de top-presteerder niet heeft. Dit zorgt ervoor dat de AI niet vastloopt in een sleur en blijft zoeken naar nieuwe mogelijkheden.

5. Het Veiligheidsnet: De "Blinde Proeverij"

Een van de grootste gevaren in AI is "over-optimalisatie". Stel je een student voor die de antwoorden van een oefentoets uit het hoofd leert, maar faalt bij het echte examen omdat hij alleen de specifieke vragen heeft uit het hoofd geleerd, niet de concepten.

CVEvolve heeft een speciale veiligheidsfunctie genaamd een Holdout-test:

De AI werkt aan een "Ontwikkelset" (de oefentoets).
Het mag de "Holdout-set" (het echte examen) nooit zien terwijl het leert.
Pas nadat het denkt de perfecte oplossing te hebben, voert een apart, onafhankelijk agent de oplossing uit op de Holdout-set om te zien of het echt werkt op nieuwe, ongezette data.
Als de oplossing de blinde test faalt, weet CVEvolve dat het alleen maar uit het hoofd leerde en gaat het terug naar het tekentafel.

6. Wat Het Eigenlijk Heeft Gedaan

Het artikel heeft dit systeem getest op drie real-world wetenschappelijke taken:

Röntgenfoto's uitlijnen: Als proberen twee lichtjes verschoven foto's van een klein object op elkaar te lijnen. CVEvolve vond een methode die 8 keer nauwkeuriger was dan de standaardmethoden die daarvoor werden gebruikt.
"Bragg-pieken" vinden: Dit zijn heldere vlekken in röntgendiffractiepatronen. De data was zeer ruisig, en de AI moest de vlekken vinden zonder bedrogen te worden door de achtergrondruis. Het verbeterde het succespercentage van ongeveer 24% tot bijna 84%.
Ringen van Vlekken scheiden: In sommige afbeeldingen heb je ringen (zoals jaarringen) en vlekken (zoals sterren). Ze zien er heel erg op elkaar. De AI leerde ze uit elkaar te houden, wat cruciaal is voor het begrijpen van het materiaal dat wordt bestudeerd.

De Conclusie

CVEvolve is een hulpmiddel dat wetenschappers die niet kunnen programmeren de mogelijkheid geeft om te zeggen: "Hier is mijn rommelige data, zoek uit hoe je het moet analyseren." De AI fungeert als een onuitputtelijke onderzoeksassistent die code schrijft, tests uitvoert, kijkt naar de visuele resultaten, zijn eigen fouten repareert en ervoor zorgt dat het eindresultaat echt werkt op nieuwe data. Het verandert het moeilijke, technische werk van het schrijven van analyse-software in een gesprek.

Technische Samenvatting: CVEvolve – Autonome Algoritmediscoverie voor Ongestructureerde Wetenschappelijke Dataverwerking

Probleemstelling

Wetenschappelijke dataverwerking, met name op gebieden zoals beeldvorming en straallijnwetenschap, vereist vaak taakspecifieke algoritmen die domeinwetenschappers moeten ontwikkelen, ondanks gebrek aan uitgebreide expertise in computer vision of software-engineering. Bestaande systemen voor geautomatiseerde methodediscoverie (zoals AutoML en Neural Architecture Search) zijn grotendeels ontworpen voor gestructureerde optimalisatieproblemen met goed gedefinieerde trainingsdata, beperkte ontwerpruimtes en scalaire doelstellingen. Ze worstelen met de "rommeligere" realiteit van ongestructureerde wetenschappelijke data, die kan aankomen als enkele afbeeldingen, diffractiepatronen of losjes gespecificeerde logs met hoge dynamische bereiken, ruis en schaarse labels. Bovendien ontbreken bij veel bestaande agentische systemen mechanismen om prestaties op ongezette data (holdout-sets) bij te houden, wat leidt tot overoptimalisatie, en falen ze vaak om de visuele inspectiemogelijkheden te bieden die nodig zijn voor het diagnosticeren van wetenschappelijke artefacten.

Methodologie

CVEvolve is een autonome agentische harness ontworpen om wetenschappelijke dataverwerkingsalgoritmen te ontdekken en te construeren zonder te vertrouwen op vooraf gedefinieerde probleemtemplates of starre workflows. Het fungeert als een meta-algoritme dat een meertraps zoekproces beheert binnen een gedeelde lus die code, data, metrieken, geschiedenis en visuele outputs omvat.

Kernarchitectuur en Workflow

Het systeem is gebouwd op een LangGraph-gebaseerd agentframework en werkt via drie hoofdfasen:

Voorbereiding: De agent inspecteert taakdata, stelt optimalisatiemetrieken op uit natuurlijke taalbeschrijvingen en bouwt een minimale evaluatieharness.
Basislijn-evaluatie: De agent evalueert door de gebruiker aangeleverde of voorgestelde basislijn-algoritmen om een prestatiebenchmark vast te stellen.
Algoritmeontwikkeling: Het systeem betreedt een ontdekkingslus bestaande uit rondes waarin de controller één van drie strategische acties kiest:
- Genereren: Stelt materieel nieuwe kandidaten voor op basis van taakkenmerken en eerdere mislukkingen.
- Afstemmen: Verfijnt een enkele ouderkandidaat door hyperparameters aan te passen of fijnmazige verbeteringen aan te brengen.
- Evolutie: Combineert sterke punten van twee ouderkandidaten (crossover) of voert agressieve mutatie uit als er slechts één kandidaat bestaat.

Belangrijke Technische Componenten

Stamboom-bewuste Stochastische Sampling: Om exploratie en exploitatie in evenwicht te brengen, gebruikt CVEvolve een Gibbs-verdeling voor het bemonsteren van ouderkandidaten, geïnspireerd door MAP-Elites. Kandidaten worden gegroepeerd op stamboom (erfenisrelaties). Een temperatuurparameter ( $\tau$ ) controleert de waarschijnlijkheid om lager gerangschikte maar potentieel veelbelovende stambomen te selecteren, waardoor voorkomt dat de zoektocht te vroeg instort op een enkele incumbent.
Agent-gestuurde Holdout-testen: Om overoptimalisatie te voorkomen, hanteert CVEvolve een aparte "holdout-testagent". Deze agent werkt op een gereserveerde holdout-dataset die de hoofdzochtagent nooit ziet. De hoofdagent levert een compact uitvoeringscontract (script en afhankelijkheden), en de holdout-agent voert de evaluatie onafhankelijk uit, waarbij metrieken worden geregistreerd zonder de data bloot te stellen aan de ontwikkelingslus.
Visualisatie en Inspectie: Het systeem bevat tools om wetenschappelijke afbeeldingen (met verwerking van hoge dynamische bereiken, uitschieters en verliesvrije formaten zoals TIFF) te renderen naar agent-beschikbare PNG's. Dit stelt de agent in staat om tussentijdse resultaten visueel te inspecteren en faalmodi visueel te diagnosticeren, een capaciteit die vaak ontbreekt bij tekstgerichte coderingsagenten.
Dynamisch Omgevingsbeheer: In tegenstelling tot systemen die vooraf geconfigureerde omgevingen vereisen, staat CVEvolve de agent toe om zijn eigen lokale runtime te beheren (bijvoorbeeld met uv voor installatie en uitvoering van afhankelijkheden), waardoor het gebroken scripts kan repareren en de werkruimte kan configureren als onderdeel van het ontdekkingsproces.
Statusbeheer: De zoekgeschiedenis wordt opgeslagen in een persistente SQLite-database in plaats van uitsluitend te vertrouwen op contextgeheugen of vectorgebaseerde RAG. Dit zorgt voor gestructureerde registratie van stambomen, metrieken en kandidaat-artefacten, wat deterministische ranking en sessieherstel faciliteert.

Belangrijkste Bijdragen

Het artikel schetst de volgende specifieke bijdragen:

Algemeen Agentisch Framework: Een systeem voor autonome algoritmediscoverie dat is toegespitst op ongestructureerde problemen, waardoor de noodzaak voor vooraf gedefinieerde modelleringpijplijnen of starre evaluatieharnessen wordt weggenomen.
Ondersteuning voor Wetenschappelijke Visualisatie: Tools die specifiek zijn ontworpen voor wetenschappelijke data, met ondersteuning voor hoge dynamische bereiken, robuustheid tegen uitschieters en getrouwe weergave van kwantitatieve beeldinformatie.
Lange-horizon Zoekharness: Een systeem dat genereren, afstemmen en evolueren combineert met stamboom-bewust statusbeheer en een agent-gestuurde holdout-testmechanisme om overoptimalisatie op te sporen.
Metriekvertaling: Het vermogen van de agent om door de gebruiker aangeleverde metriekbeschrijvingen te vertalen naar uitvoerbare evaluatieprocedures.
Runtime-flexibiliteit: Het toestaan aan de agent om zijn eigen uitvoeringsomgeving te construeren en beheren, waardoor de afhankelijkheid van vooraf geconfigureerde setups wordt verminderd.
Empirische Demonstratie: Validatie van het framework op drie verschillende wetenschappelijke beeldvormingstaken.

Experimentele Resultaten

CVEvolve werd geëvalueerd op drie ongestructureerde wetenschappelijke beeldvormingstaken met behulp van het Claude Opus 4.6-model:

X-ray Fluorescentie (XRF) Beeldregistratie:
- Taak: Translatieregistratie van ruizige, hoog-dynamische XRF-afbeeldingen met variërende scherpte.
- Resultaat: CVEvolve ontdekte een analytisch algoritme dat een gemiddelde Euclidische fout van 0,12 bereikte, een bijna achtvoudige verbetering ten opzichte van de brute-force basislijn (0,98) en significant beter presteerde dan een eerdere OpenEvolve-implementatie (0,23) die 500 iteraties nodig had om te plateau.
- Generalisatie: De holdout-testfout kwam nauw overeen met de ontwikkelingsfout, wat wijst op robuuste generalisatie zonder overoptimalisatie.
Bragg-piek Detectie:
- Taak: Het identificeren van Bragg-pieken in röntgendiffractie-afbeeldingen met ruizige achtergronden en variërende piekvormen.
- Resultaat: De holdout F1-score piekte in ronde 5 (0,788) voordat deze in latere rondes daalde, wat de bruikbaarheid van holdout-tracking aantoont om de optimale kandidaat te identificeren voordat overfitting optreedt op de kleine ontwikkelingsset. De beste kandidaat verbeterde de F1-score van 0,298 (basislijn) naar 0,788, waarbij de precisie steeg van 0,237 naar 0,839.
High-Energy Diffraction Microscopy (HEDM) Segmentatie:
- Taak: Het onderscheiden van poederringen en Bragg-pieken in diffractie-afbeeldingen van polykristallijne materialen.
- Resultaat: De agent ontdekte een workflow die log-transformatie, radiale achtergrondschatting en consistentietests omvatte. De beste kandidaat bereikte een gewogen IoU van 0,50 op de holdout-set (Ronde 16), wat significant beter presteerde dan de basislijn (0,37).

Validatie van Stochastische Sampling:
Een "toy-probleem" experiment waarbij het maximum van een synthetische 2D-functie werd gezocht, toonde aan dat stochastische sampling met een hogere temperatuur ( $\tau=5$ ) het systeem in staat stelde om lokale optima te ontvluchten en in alle proeven binnen 6 rondes het globale maximum te vinden. In tegenstelling hiermee faalde deterministische sampling ( $\tau=0$ ) in 3 van de 5 proeven om binnen 30 rondes het maximum te vinden, wat het belang onderstreept van het verkennen van onderpresterende maar veelbelovende stambomen.

Betekenis en Claims

Het artikel beweert dat CVEvolve een stap voorwaarts is naar meer autonome wetenschappelijke ontdekkingsworkflows door de drempel voor domeinwetenschappers te verlagen om robuuste, interpreteerbare en taakspecifieke dataverwerkingsmethoden te ontwikkelen.

Zero-code Interface: Het stelt wetenschappers in staat om taken en data in natuurlijke taal te beschrijven zonder aangepaste evaluatiescripts te schrijven of complexe omgevingen te beheren.
Overwinnen van Overoptimalisatie: Door een agent-bedreven holdout-test en stamboom-bewuste sampling te integreren, adresseert het systeem kritieke kwetsbaarheden in autonome algoritmeontwikkeling, waardoor wordt gegarandeerd dat ontdekte algoritmen goed generaliseren.
Overbruggen van de Kloof: Het framework slaagt erin de kloof te overbruggen tussen de gestructureerde aannames van huidige AutoML-systemen en de ongestructureerde realiteit van wetenschappelijke dataverwerking, en demonstreert dat door LLM-aangedreven agenten autonoom algoritmen kunnen synthetiseren die in specifieke wetenschappelijke contexten concurreren met of menselijk ontworpen basislijnen overtreffen.

De auteurs positioneren CVEvolve niet als een vervanging voor domeinwetenschappers, maar als een hulpmiddel om de ontwikkeling van praktische wetenschappelijke dataverwerkingsmethoden te versnellen door de last te verschuiven van handmatig trial-and-error scripting naar autonome algoritme-evolutie.

CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing