Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok bent die een heerlijk gerecht moet bereiden (het oplossen van een data-probleem). Je hebt een kast vol met ingrediënten (de oorspronkelijke gegevens) en een setje keukenhulpmiddelen (rekenoperaties zoals optellen, delen, worteltrekken).

Het doel is om nieuwe, betere combinaties van ingrediënten te bedenken die het gerecht nog lekkerder maken. Dit noemen onderzoekers Functie-Transformatie.

Het probleem is dat er zo ontzettend veel manieren zijn om ingrediënten te combineren, dat het zoeken naar de perfecte mix als het zoeken naar een speld in een hooiberg voelt.

Het oude probleem: De statische receptenboek

Tot nu toe probeerden computers dit op twee manieren:

Gokken: Ze probeerden willekeurig combinaties, maar dat duurde eeuwen en leverde vaak onbruikbare resultaten op (zoals "sinaasappelsap met zout").
LLM's (Slimme AI's): Mensen vroegen slimme AI's (zoals ChatGPT) om nieuwe recepten. Maar ze gaven de AI een vast receptenboek met voorbeelden. Dit boekje werd nooit aangepast. Als de AI een goed idee had, werd dat niet opgeslagen in het boekje voor de volgende keer. Het resultaat was vaak saai, herhalend, of niet helemaal geschikt voor het specifieke gerecht.

De nieuwe oplossing: "Evolving Demonstration Optimization"

De auteurs van dit paper (Xinyuan Wang en collega's) hebben een slimme manier bedacht om dit aan te pakken. Ze behandelen de voorbeelden die ze aan de AI geven niet als een statisch boekje, maar als een levende, groeiende ervaring.

Hier is hoe hun methode werkt, stap voor stap, met een analogie:

Stap 1: De Verkenning (De proefkeuken)

Eerst laten ze een slimme robot (Reinforcement Learning) in de keuken rennen. Deze robot mag wild experimenteren met ingrediënten.

Wat gebeurt er? De robot maakt duizenden combinaties.
De filter: Alleen de combinaties die het gerecht daadwerkelijk lekkerder maken, worden geselecteerd. De rest wordt weggegooid.
Het resultaat: Een verzameling van "bewezen winnende combinaties".

Stap 2: De Opfrissing (Het kookboek herschrijven)

Nu nemen ze die winnende combinaties en maken er een Chain-of-Thought (CoT)-verhaal van.

De analogie: In plaats van alleen het eindresultaat te tonen ("Doe dit en je krijgt een taart"), laten ze de AI zien hoe je er komt. "Eerst heb je meel, dan voeg je suiker toe, dan bak je het..."
Ze vullen de gaten op: Als er een stap mist tussen twee goede combinaties, vraagt de AI aan zichzelf: "Wat zou er tussenin kunnen werken?"
Ze zorgen voor diversiteit: Ze kiezen niet alleen de lekkerste taarten, maar ook taarten met verschillende smaken (chocolade, fruit, citroen), zodat het boekje niet saai wordt. Ze verwijderen dubbele recepten.

Stap 3: De Cyclus (De levende keuken)

Dit is het magische deel.

Ze geven dit verbeterde, levende boekje aan de AI.
De AI maakt een nieuw recept op basis van deze slimme voorbeelden.
Ze testen het nieuwe recept.
Als het werkt: Het nieuwe recept wordt toegevoegd aan het boekje, en het boekje wordt weer opgefrist (Stap 2).
Als het niet werkt: Het wordt weggegooid.

Dit proces herhaalt zich. Het boekje met voorbeelden evolueert mee. Het wordt steeds slimmer, diverser en specifieker voor het probleem dat je probeert op te lossen.

Waarom is dit zo goed?

Geen statisch boekje: De AI leert van zijn eigen succes. Elke keer wordt het boekje met voorbeelden beter.
Stabiliteit: Omdat de AI niet meer "blind" gokt, maar werkt met bewezen, geoptimaliseerde voorbeelden, zijn de resultaten veel betrouwbaarder.
Alles werkt: Of je nu een dure AI gebruikt of een gratis, open-source versie; deze methode werkt voor iedereen omdat het de instructies (de context) optimaliseert, niet de AI zelf.

Samenvattend

Stel je voor dat je een student wilt leren wiskunde.

Oude manier: Je geeft de student één vast boekje met voorbeelden en zegt: "Leer dit uit."
Nieuwe manier: Je geeft de student een boekje met voorbeelden die je elke dag aanpast op basis van wat de student goed deed gisteren. Je voegt nieuwe, slimme stappen toe en verwijdert de verwarrende dingen. De student wordt elke dag slimmer omdat het lesmateriaal meegroeit met zijn kennis.

Dit paper toont aan dat voor AI's, het optimaliseren van de lesmateriaal (de context) veel krachtiger is dan het proberen om de AI zelf te herschrijven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation", geschreven in het Nederlands.

Titel: Evoluerende Demonstratie-Optimalisatie voor Chain-of-Thought Feature Transformation

Auteurs: Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu (Arizona State University & Clemson University)

1. Probleemstelling

Feature Transformation (FT) is een kernopgave in data-centric AI, waarbij nieuwe, informatieve kenmerken worden gegenereerd door bestaande kenmerken te combineren met wiskundige operatoren (bijv. $a/b$ , $a-b$ ). Het doel is om de kwaliteit van de feature space te verbeteren voor downstream voorspellende taken.

Er zijn echter drie grote uitdagingen bij het vinden van effectieve transformaties:

Combinatorische Explosie: De zoekruimte van mogelijke feature-operator combinaties groeit exponentieel met het aantal kenmerken, wat exhaustive search onmogelijk maakt.
Beperkingen van Bestaande Methoden:
- Discrete zoekmethoden (RL): Lijden vaak aan inefficiëntie, een hoge ratio van ongeldige kandidaten en gebrek aan diversiteit.
- Latente generatiemethoden: Kunnen ongeldige of niet-uitvoerbare transformaties genereren door een gebrek aan datasetkennis.
Beperkingen van LLM-gebaseerde methoden: Hoewel Large Language Models (LLMs) sterke priors hebben voor het genereren van geldige transformaties, vertrouwen huidige methoden op statische prompts (fixed few-shot examples). Dit leidt tot:
- Beperkte diversiteit en creativiteit.
- Redundante outputs.
- Zwakke uitlijning met de specifieke downstream-doelstellingen, omdat de prompts niet worden geoptimaliseerd op basis van feedback.

Het paper stelt dat de "data" die een LLM stuurt (de context/demonstraties) niet statisch moet zijn, maar een evoluerend, geoptimaliseerd object moet worden.

2. Methodologie

Het paper introduceert een data-centric framework dat de contextdata voor LLM-driven FT optimaliseert door een gesloten lus van ervaringen te evolueren. Het proces verloopt in drie hoofdfasen (zie Figuur 5 in het paper):

Fase I: RL-Exploratie voor Hoogpresterende Sequenties

Een Reinforcement Learning (RL) agent (geïnspireerd door GRFG) verkent de ruimte van feature-combinaties.
De agent ontvangt een beloning ( $r$ ) gebaseerd op de verbetering van de downstream prestaties (bijv. F1-score of 1-RAE).
Het resultaat is een set geverifieerde, hoogpresterende transformatiesequenties die dienen als de initiële "ervaringsbibliotheek" ( $E$ ).

Fase II: Drie-niveau Verfijning voor Few-shot Context Constructie

De ruwe sequenties uit Fase I worden verwerkt tot een hoogwaardige context voor de LLM:

Validatie (Local Reliability): Elke combinatie wordt gecontroleerd op syntactische geldigheid, numerieke stabiliteit (geen deling door nul) en minimale bruikbaarheid. Ongeldige transformaties worden verwijderd.
CoT Traject Constructie & Enhancment:
- Geldige sequenties worden geordend op basis van hun downstream-score om een Chain-of-Thought (CoT) traject te vormen. Dit toont de LLM een "evolutiepad" van verbetering in plaats van geïsoleerde voorbeelden.
- Een LLM wordt gebruikt om gaten in deze trajecten op te vullen (bijv. het genereren van tussentijdse varianten) om de diversiteit en volledigheid te vergroten.
Entropie-gestuurde Diversiteitsselectie: Om te voorkomen dat de context in een smal patroon vastloopt, wordt een selectie-algoritme gebruikt dat een afweging maakt tussen kwaliteit (score), dekking (entropie van structurele patronen) en redundantie (gemiddelde gelijkenis). Dit zorgt voor een diverse set voorbeelden.

Fase III: Generatie en Write-back (Gesloten Lus)

Generatie: De LLM gebruikt de geoptimaliseerde CoT-context om nieuwe transformatiesequenties te genereren.
Verificatie: De gegenereerde sequenties worden getest op de downstream taak.
Write-back: De beste, geverifieerde sequenties worden teruggevoerd naar de ervaringsbibliotheek ( $E$ ) om de context voor de volgende iteratie te verrijken. Dit creëert een zelfverbeterende cyclus.

3. Belangrijkste Bijdragen

Context-as-Data Formulering: Het paper positioneert few-shot demonstraties niet als statische prompts, maar als een evoluerende ervaringsbibliotheek die als data-object wordt geoptimaliseerd om priors voor de LLM te distilleren.
Gesloten-Lus Ervaringsconstructie: Een nieuw framework dat RL-exploratie, validatie, CoT-gebaseerde verfijning en diversiteitsselectie combineert om een dynamische context te bouwen die direct uitgelijnd is met downstream prestaties.
Dynamisch Trajectperspectief: Het behandelen van voorbeeldsequenties als delen van een evoluerend traject (Chain of Improvement) in plaats van statische ervaringen, waardoor de LLM een duidelijk pad ziet naar hogere prestaties.

4. Resultaten

De methode is getest op diverse tabulaire benchmarks (UCI, Kaggle, OpenML) voor zowel classificatie als regressie.

Prestatie: De methode overtreft zowel klassieke zoekmethoden (zoals GRFG, MOAT) als geautomatiseerde feature engineering pipelines (AutoFeat, AFAT).
Vergelijking met LLM-baselines: Het presteert significant beter en stabieler dan bestaande LLM-methoden (FeaLLM, CAAFE) die gebruikmaken van statische prompts.
Gesloten-lus vs. One-shot: Experimenten tonen aan dat de iteratieve write-back van geverifieerde sequenties leidt tot consistente verbeteringen, terwijl one-shot generatie (zelfs met herhaling) onstabiel blijft.
Ablatiestudies:
- Het verwijderen van de CoT-structuur leidt tot de grootste prestatiedaling, wat aantoont dat het tonen van een evolutiepad cruciaal is.
- Validatiechecks zijn essentieel om ongeldige combinaties te voorkomen.
- Entropie-gestuurde selectie zorgt voor betere dekking en minder redundantie.
Generalisatie: Het framework werkt robuust over verschillende LLM's (zowel API-based zoals GPT-4o als open-source zoals Llama-3 en DeepSeek) en is onafhankelijk van het specifieke downstream-model dat wordt gebruikt voor evaluatie.

5. Betekenis en Conclusie

Dit paper biedt een paradigmaverschuiving in het gebruik van LLM's voor data-centric AI. In plaats van te proberen de LLM zelf te finetunen (wat duur en complex is), wordt de contextdata geoptimaliseerd.

Stabiliteit: De methode lost het probleem van onstabiele en redundante output van LLM's op door een gestructureerde, feedback-gedreven cyclus.
Interpreteerbaarheid: De CoT-structuur maakt het mogelijk om te zien hoe transformaties stap voor stap verbeteren, wat inzicht geeft in het "gedrag" van de LLM (bijv. dat LLM's vaak conservatief zijn en eenvoudige operatoren prefereren).
Toepasbaarheid: Omdat de optimalisatie plaatsvindt in de contextruimte en niet in de modelparameters, is de methode direct toepasbaar op zowel gesloten als open-source modellen, wat het zeer flexibel maakt voor praktische toepassingen.

Kortom, door demonstraties te behandelen als een evoluerende bron van kennis in plaats van statische instructies, kan de kwaliteit en stabiliteit van AI-gedreven feature engineering aanzienlijk worden verbeterd.