Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige schuur binnenstapt. Overal liggen losse onderdelen: tandwielen, veren, schroeven en stukjes metaal. Je weet dat er een prachtige, complexe machine in zit, maar je kunt hem niet zien. Je hebt alleen een paar foto's gemaakt van de machine terwijl hij draaide, maar de foto's zijn wazig (ruis) en je hebt ze vanuit een slechte hoek genomen (onvolledige data).

Je doel is om de bouwtekeningen van die machine te vinden. Niet zomaar een schets, maar de exacte wiskundige formule die beschrijft hoe alles werkt.

Dit is precies het probleem dat natuurkundigen en wetenschappers vaak tegenkomen: ze hebben data, maar ze moeten de onderliggende "wetten van de natuur" eruit halen. Het probleem is dat er vaak duizenden mogelijke bouwtekeningen zijn die op de foto's lijken, maar waarvan de meeste fysisch onmogelijk zijn (bijvoorbeeld een machine die energie uit het niets creëert).

Deze paper introduceert SymLang, een slimme nieuwe manier om die bouwtekeningen te vinden, zelfs als de data slecht is. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Fysieke Filter" (De Symmetrie-Grammatica)

Stel je voor dat je een enorme doos met Lego-blokjes hebt. Je probeert een kasteel te bouwen, maar je mag alleen blokken gebruiken die logisch bij elkaar passen.

Het oude probleem: Eerdere methoden gooiden willekeurig blokken op elkaar, hoopten dat het een kasteel werd, en keken dan pas of het stabiel was. Dit kostte enorm veel tijd en leverde vaak gekke, onstabiele constructies op.
De SymLang-oplossing: SymLang gebruikt een "fysieke filter". Voordat het ook maar één blokje plaatst, zegt het: "Oké, we weten dat dit een kasteel is. We weten dat zwaartekracht bestaat. We weten dat je geen zwevende muren kunt bouwen."
- Het gebruikt regels uit de natuurkunde (zoals "een kracht moet een eenheid hebben" of "als je linksom draait, moet het rechtsonder hetzelfde zijn").
- Hierdoor worden 71% van de mogelijke foutieve bouwtekeningen direct verwijderd voordat ze zelfs maar worden getest. Het is alsof je de hele doos met onmogelijke blokken weggooit voordat je begint.

2. De "Slimme Architect" (Het Taalmodel)

Nu hebben we een kleiner, haalbaar assortiment blokken. Maar welke combinatie is de juiste?

Het oude probleem: Eerdere methoden probeerden willekeurige combinaties (zoals een aap die op een typemachine zit) of gebruikten simpele zoekalgoritmes die vastliepen in lokale optima.
De SymLang-oplossing: SymLang gebruikt een AI die is getraind als een "wiskundig architect". Deze AI heeft miljoenen voorbeelden van echte natuurwetten gelezen.
- Als je de AI de "wazige foto's" (de data) geeft, zegt hij niet: "Hier is een willekeurige formule."
- Hij zegt: "Op basis van hoe deze machine beweegt, lijkt het me dat we hier een veer en een hefboom nodig hebben, niet een raketmotor."
- Hij stelt dus alleen de meest waarschijnlijke bouwtekeningen voor, gebaseerd op wat hij al weet over de natuur.

3. De "Kwaliteitscontroleur" (Onzekerheid meten)

Stel dat je twee verschillende bouwtekeningen hebt die allebei perfect op de foto's lijken. Wat doe je dan?

Het oude probleem: De meeste methoden kiezen er één en zeggen: "Dit is het antwoord!" Zelfs als ze zich vergissen. Dit is gevaarlijk voor wetenschappers.
De SymLang-oplossing: SymLang is eerlijk. Het zegt: "We hebben twee goede opties gevonden. De data zijn niet goed genoeg om te zeggen welke van de twee de echte is."
- In plaats van één antwoord te geven, geeft het een lijst met opties en zegt: "Optie A is 50% waarschijnlijk, Optie B is 50%."
- Dit is cruciaal. Het vertelt de wetenschapper: "Je hebt meer metingen nodig om dit op te lossen," in plaats van hen een verkeerd antwoord te geven dat ze als waarheid gaan zien.

Waarom is dit zo belangrijk?

Het werkt met slechte data: Zelfs als je metingen erg ruisig zijn (zoals een slechte foto) of als je niet alle onderdelen kunt zien (bijvoorbeeld omdat ze verborgen zijn in de machine), vindt SymLang nog steeds de juiste wetten.
Het is sneller: Omdat het 71% van de onmogelijke opties direct weggooit, is het veel sneller dan oude methoden.
Het is eerlijk: Het geeft toe als het niet zeker is. In de wetenschap is het erkennen van onzekerheid vaak belangrijker dan een vals zeker antwoord.

Samengevat:
SymLang is als een super-slimme detective die een moordzaak oplost.

De fysieke regels zijn de wetten van de logica (een moordenaar kan niet op twee plekken tegelijk zijn).
De AI is de ervaren rechercheur die weet welke verdachten waarschijnlijk zijn.
De onzeekerheidsmeting is de rechter die zegt: "We hebben genoeg bewijs om te zeggen dat het A of B is, maar we weten niet zeker welke, dus laten we niet veroordelen zonder meer bewijs."

Met deze tool kunnen wetenschappers sneller en betrouwbaarder de geheimen van het universum ontrafelen, van hoe planeten bewegen tot hoe ziektes zich verspreiden, zelfs als hun data niet perfect is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations" in het Nederlands.

Titel: SymLang: Symmetrie-beperkte Taal-gestuurde Programmasynthese voor het Ontdekken van Besturingsvergelijkingen

Auteurs: Mirza Samad Ahmed Baig en Syeda Anshrah Gillani.

1. Het Probleem

Het automatisch ontdekken van compacte, symbolische wiskundige wetten (zoals Newton's wetten of Maxwell's vergelijkingen) uit experimentele data is een fundamenteel doel van de kwantitatieve wetenschap. Echter, bestaande methoden falen vaak in realistische scenario's vanwege drie kritieke uitdagingen:

Ruis: Meetfouten verstoren de schatting van afgeleiden, wat essentieel is voor differentiaalvergelijkingen.
Gedeeltelijke waarneembaarheid: Belangrijke toestandsvariabelen worden niet gemeten, waardoor alleen een geprojecteerde dynamiek beschikbaar is.
Structurele onzekerheid: Bestaande methoden leveren vaak één "beste" vergelijking op, zonder te erkennen dat de data meerdere structureel equivalente oplossingen kunnen ondersteunen. Dit leidt tot epistemische misleiding en het overinterpretëren van toevalligheden als fundamentele wetten.

Bestaande technieken zoals genetische programmering (te traag, geen onzekerheidsmeting), SINDy (beperkt tot een vaste bibliotheek van operatoren) en neurale benaderingen (moeilijk interpreteerbaar) slagen er niet in om fysieke constraints vooraf in te bouwen en structurele onzekerheid correct te kwantificeren.

2. Methodologie: Het SymLang Framework

SymLang is een unificerend framework dat drie eerder gescheiden ideeën combineert in een modulaire, vijf-staps pijplijn:

Stap 1: Preprocessing en Afgeleiden Schatting

Rauwe observaties worden eerst gladgemaakt en gedifferentieerd. In plaats van directe eindige verschillen (die ruis versterken), wordt een variatieprobleem opgelost met behulp van smoothing splines of total-variation regularisatie. De keuze tussen deze methoden wordt gebaseerd op voorspellingsfouten op een vastgehouden datasetsegment.

Stap 2: Nondimensionalisatie en Eenheidsbeperkingen

Variabelen worden genormaliseerd om numerieke instabiliteit te voorkomen. Cruciaal hierbij is het toepassen van het Buckingham $\Pi$ -theorema. Een getypeerde context-vrije grammatica (CFG) wordt gebruikt om te garanderen dat elke gegenereerde expressie dimensioneel consistent is. Dit elimineert onmogelijke combinaties (bijv. het optellen van lengte en tijd) en reduceert de zoekruimte drastisch.

Stap 3: Symmetrie-beperkte Grammatica Constructie

Naast eenheidsconsistentie worden fysieke symmetries als harde productieregels in de grammatica geïmplementeerd:

Pariteit: Bijv. het blokkeren van even machten voor odd-functies.
Rotatie-invariantie: Dynamica die invariant is onder rotatie mag alleen afhangen van invariante combinaties (zoals $||x||^2$ ).
Tijds-translatie-invariantie: Autonome systemen mogen geen expliciete tijdsafhankelijkheid hebben.
Galileïsche/Lorentz-invariantie: Voor mechanische systemen.
Dit zorgt ervoor dat de grammatica alleen fysiek plausibele bomen genereert, wat gemiddeld 71,3% van de kandidaat-expressies verwijdert voordat er zelfs maar fitting plaatsvindt.

Stap 4: Taal-gestuurde Programmasynthese

In plaats van een willekeurige zoektocht, wordt een fine-tuned 7B-parameter taalmodel (LLM) gebruikt als "proposer".

Het model ontvangt een compacte, interpreteerbare data-descriptor (spectrale kenmerken, symmetrie-scores, conservatie-kandidaten).
Het genereert efficiënt kandidaat-structuurreeksen (S-expressions) die consistent zijn met de getypeerde grammatica.
Dit combineert de deductieve kracht van symmetrie met de inductieve zoekrichting van het LLM.

Stap 5: Fitting, Modelselectie en Onzekerheidskwalificatie

Constanten Fitting: Voor elke structuur worden de parameters geoptimaliseerd via differentiaal-matching, met een zachte straalterm voor geïdentificeerde conservatie-wetten.
MDL-gebaseerde Selectie: Het framework gebruikt Minimum Description Length (MDL) voor modelselectie. Dit straalt zowel de fit-tijd als de complexiteit van de structuur (beschrijvingslengte) af, wat overfitting voorkomt.
Bootstrap Stabiliteit: Om structurele onzekerheid te kwantificeren, wordt een block-bootstrap procedure uitgevoerd. Als een vergelijking niet stabiel blijft bij data-perturbaties, wordt dit gemarkeerd.
Identificeerbaarheid: De Fisher-informatiematrix wordt gebruikt om te detecteren of parameters niet uniek bepaald kunnen worden.

3. Belangrijkste Bijdragen

Unificatie van Symmetrie en LLM's: Het is het eerste framework dat getypeerde grammatica's (voor fysieke constraints) koppelt aan een taalmodel voor gerichte zoektocht, waardoor de zoekruimte exponentieel wordt verkleind.
Kwalificatie van Structurele Onzekerheid: In plaats van één "beste" vergelijking te geven, rapporteert SymLang een gewogen lijst van kandidaten en flagt expliciet wanneer data onvoldoende zijn om tussen structureel equivalente modellen te onderscheiden (degeneratie).
Omgaan met Gedeeltelijke Waarneembaarheid: Het biedt strategieën voor het leren van effectieve dynamica of het introduceren van latente variabelen, terwijl het de onzekerheid hierover transparant houdt.
Open Source en Reproduceerbaar: Het framework is volledig open-source en getest op een uitgebreide benchmark.

4. Resultaten

Het framework werd getest op 133 dynamische systemen uit vijf domeinen (klassieke mechanica, elektrodynamica, thermodynamica, populatiedynamica, niet-lineaire oscillatoren) met verschillende ruisniveaus en mate van gedeeltelijke observatie.

Structuurherstel: Bij 10% ruis bereikt SymLang een exacte herstelkans van 83,7%. Dit is een verbetering van 22,4 procentpunten ten opzichte van de beste concurrent (PySR) en 48,8 punten ten opzichte van SINDy.
Extrapolatie en Fysieke Consistentie: SymLang vertoont een 61% lagere fout bij extrapolatie buiten de trainingsverdeling (OOD) vergeleken met PySR. Het schendt bijna nooit behoudswetten (fysieke drift van $3.1 \times 10^{-3} $vs.$ 187.3 \times 10^{-3}$ voor de concurrent), omdat de grammatica deze per constructie respecteert.
Gedeeltelijke Observatie: Bij 50% van de toestandsvariabelen verborgen, bereikt SymLang een herstelkans van 61,2% (vs. 38,4% voor DSR).
Identificeerbaarheid: SymLang identificeert correct 91,3% van de systemen die fundamenteel niet-identificeerbaar zijn onder hoge occlusie, en waarschuwt de gebruiker in plaats van een verkeerd antwoord te geven.
Efficiëntie: SymLang bereikt 80% herstel met ongeveer 4.800 tijdstappen, terwijl PySR ongeveer 19.000 stappen nodig heeft (4x minder data nodig).

5. Betekenis en Conclusie

SymLang vertegenwoordigt een paradigmaverschuiving in wetenschappelijk machine learning. Door fysieke wetten (symmetrie, dimensies) als harde constraints in de zoekruimte te integreren en deze te combineren met de zoekkracht van taalmodellen, overwint het de beperkingen van zowel traditionele symbolische regressie als pure neurale netwerken.

De belangrijkste wetenschappelijke bijdrage is de epistemische eerlijkheid: het systeem geeft niet alleen een antwoord, maar vertelt ook hoe zeker het daarover is. Dit stelt wetenschappers in staat om experimenten doelgericht in te plannen om ambiguïteiten op te lossen, in plaats van blindelings op een mogelijk verkeerd model te vertrouwen. Het biedt een principieel pad van ruwe data naar interpreteerbare, fysiek auditabele symbolische wetten.