Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Het paper introduceert SymLang, een open-source framework dat door het combineren van symmetrie-gedwongen grammatica's, taalmodel-gestuurde programmasynthese en Bayesiaanse modelselectie, nauwkeurige en interpreteerbare wetenschappelijke vergelijkingen kan ontdekken uit ruwe, ruizige en gedeeltelijke observaties.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, rommelige schuur binnenstapt. Overal liggen losse onderdelen: tandwielen, veren, schroeven en stukjes metaal. Je weet dat er een prachtige, complexe machine in zit, maar je kunt hem niet zien. Je hebt alleen een paar foto's gemaakt van de machine terwijl hij draaide, maar de foto's zijn wazig (ruis) en je hebt ze vanuit een slechte hoek genomen (onvolledige data).

Je doel is om de bouwtekeningen van die machine te vinden. Niet zomaar een schets, maar de exacte wiskundige formule die beschrijft hoe alles werkt.

Dit is precies het probleem dat natuurkundigen en wetenschappers vaak tegenkomen: ze hebben data, maar ze moeten de onderliggende "wetten van de natuur" eruit halen. Het probleem is dat er vaak duizenden mogelijke bouwtekeningen zijn die op de foto's lijken, maar waarvan de meeste fysisch onmogelijk zijn (bijvoorbeeld een machine die energie uit het niets creëert).

Deze paper introduceert SymLang, een slimme nieuwe manier om die bouwtekeningen te vinden, zelfs als de data slecht is. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Fysieke Filter" (De Symmetrie-Grammatica)

Stel je voor dat je een enorme doos met Lego-blokjes hebt. Je probeert een kasteel te bouwen, maar je mag alleen blokken gebruiken die logisch bij elkaar passen.

  • Het oude probleem: Eerdere methoden gooiden willekeurig blokken op elkaar, hoopten dat het een kasteel werd, en keken dan pas of het stabiel was. Dit kostte enorm veel tijd en leverde vaak gekke, onstabiele constructies op.
  • De SymLang-oplossing: SymLang gebruikt een "fysieke filter". Voordat het ook maar één blokje plaatst, zegt het: "Oké, we weten dat dit een kasteel is. We weten dat zwaartekracht bestaat. We weten dat je geen zwevende muren kunt bouwen."
    • Het gebruikt regels uit de natuurkunde (zoals "een kracht moet een eenheid hebben" of "als je linksom draait, moet het rechtsonder hetzelfde zijn").
    • Hierdoor worden 71% van de mogelijke foutieve bouwtekeningen direct verwijderd voordat ze zelfs maar worden getest. Het is alsof je de hele doos met onmogelijke blokken weggooit voordat je begint.

2. De "Slimme Architect" (Het Taalmodel)

Nu hebben we een kleiner, haalbaar assortiment blokken. Maar welke combinatie is de juiste?

  • Het oude probleem: Eerdere methoden probeerden willekeurige combinaties (zoals een aap die op een typemachine zit) of gebruikten simpele zoekalgoritmes die vastliepen in lokale optima.
  • De SymLang-oplossing: SymLang gebruikt een AI die is getraind als een "wiskundig architect". Deze AI heeft miljoenen voorbeelden van echte natuurwetten gelezen.
    • Als je de AI de "wazige foto's" (de data) geeft, zegt hij niet: "Hier is een willekeurige formule."
    • Hij zegt: "Op basis van hoe deze machine beweegt, lijkt het me dat we hier een veer en een hefboom nodig hebben, niet een raketmotor."
    • Hij stelt dus alleen de meest waarschijnlijke bouwtekeningen voor, gebaseerd op wat hij al weet over de natuur.

3. De "Kwaliteitscontroleur" (Onzekerheid meten)

Stel dat je twee verschillende bouwtekeningen hebt die allebei perfect op de foto's lijken. Wat doe je dan?

  • Het oude probleem: De meeste methoden kiezen er één en zeggen: "Dit is het antwoord!" Zelfs als ze zich vergissen. Dit is gevaarlijk voor wetenschappers.
  • De SymLang-oplossing: SymLang is eerlijk. Het zegt: "We hebben twee goede opties gevonden. De data zijn niet goed genoeg om te zeggen welke van de twee de echte is."
    • In plaats van één antwoord te geven, geeft het een lijst met opties en zegt: "Optie A is 50% waarschijnlijk, Optie B is 50%."
    • Dit is cruciaal. Het vertelt de wetenschapper: "Je hebt meer metingen nodig om dit op te lossen," in plaats van hen een verkeerd antwoord te geven dat ze als waarheid gaan zien.

Waarom is dit zo belangrijk?

  1. Het werkt met slechte data: Zelfs als je metingen erg ruisig zijn (zoals een slechte foto) of als je niet alle onderdelen kunt zien (bijvoorbeeld omdat ze verborgen zijn in de machine), vindt SymLang nog steeds de juiste wetten.
  2. Het is sneller: Omdat het 71% van de onmogelijke opties direct weggooit, is het veel sneller dan oude methoden.
  3. Het is eerlijk: Het geeft toe als het niet zeker is. In de wetenschap is het erkennen van onzekerheid vaak belangrijker dan een vals zeker antwoord.

Samengevat:
SymLang is als een super-slimme detective die een moordzaak oplost.

  • De fysieke regels zijn de wetten van de logica (een moordenaar kan niet op twee plekken tegelijk zijn).
  • De AI is de ervaren rechercheur die weet welke verdachten waarschijnlijk zijn.
  • De onzeekerheidsmeting is de rechter die zegt: "We hebben genoeg bewijs om te zeggen dat het A of B is, maar we weten niet zeker welke, dus laten we niet veroordelen zonder meer bewijs."

Met deze tool kunnen wetenschappers sneller en betrouwbaarder de geheimen van het universum ontrafelen, van hoe planeten bewegen tot hoe ziektes zich verspreiden, zelfs als hun data niet perfect is.