Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SymLang(심랭)"**이라는 새로운 인공지능 도구를 소개합니다. 이 도구의 역할은 과학자들이 실험실에서 얻은 '지저분한' 데이터들을 보고, 그 뒤에 숨겨진 **우주의 법칙 (수식)**을 찾아내는 것입니다.

기존의 방법들은 데이터가 조금만 노이즈 (오차) 가 있거나, 중요한 정보가 빠져있으면 엉뚱한 결론을 내거나 아예 찾지 못했습니다. 하지만 SymLang 은 마치 엄격한 규칙을 가진 천재 탐정처럼 작동하여, 훨씬 더 정확하고 신뢰할 수 있는 법칙을 찾아냅니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "지저분한 조각난 퍼즐"

과학 실험 데이터를 상상해 보세요.

노이즈 (Noise): 측정 오차로 인해 데이터가 찌그러져 있습니다. (예: 비 오는 날 사진을 찍어 흐릿함)
부분 관측 (Partial Observations): 중요한 조각이 빠져있습니다. (예: 퍼즐의 50% 가 사라짐)
결과: 기존 AI 들은 이 퍼즐을 맞추려다 "아마도 이 모양일 거야!"라고 확신하며 엉뚱한 그림을 그려냅니다. 하지만 그 그림은 실제 법칙과 다릅니다.

2. SymLang 의 해결책: "3 단계의 마법"

SymLang 은 이 문제를 해결하기 위해 세 가지 강력한 전략을 사용합니다.

① "물리 법칙이라는 안전장" (대칭성 제약 문법)

기존 AI 는 모든 가능한 수식을 무작위로 만들어보며 하나씩 확인합니다. 이는 시간이 너무 오래 걸리고, 물리적으로 불가능한 수식 (예: 질량이 없는 물체가 중력을 받는다) 도 만들어냅니다.

비유: 레고 조립을 생각해 보세요.
- 기존 AI 는 레고 블록을 아무렇게나 쌓아올려서 '날아다니는 자동차'를 만들려 합니다. (물리적으로 불가능하지만 AI 는 모릅니다.)
- SymLang은 처음부터 **"중력을 무시할 수 없다", "단위 (kg, m, s) 가 맞아야 한다"**는 규칙을 레고 박스에 박아둡니다.
- 그 결과, 물리 법칙을 위반하는 엉뚱한 조립은 처음부터 아예 만들지 않습니다. 덕분에 후보 수식을 70% 이상 줄여서, 진짜 답을 훨씬 빠르게 찾을 수 있습니다.

② "데이터를 읽는 천재 코치" (언어 모델 제안)

규칙만 있다고 해서 답이 바로 나오지는 않습니다. 수많은 규칙 속에서도 어떤 조합이 맞을지 고르는 게 중요합니다.

비유: 스포츠 코치가 선수에게 조언을 해주는 것처럼요.
- SymLang 에内置된 'AI 코치 (언어 모델)'는 데이터의 특징 (진동수, 대칭성 등) 을 빠르게 분석합니다.
- 그리고 "이번 데이터는 저런 모양의 수식이 필요해!"라고 가장 유력한 후보 2,000 개만 골라냅니다.
- 기존 방식이 "모든 가능성"을 다 뒤지는 것이라면, SymLang 은 "가장 그럴듯한 것"만 집중적으로 검사합니다.

③ "단 하나의 정답이 아닐 수도 있다" (불확실성 인정)

가장 혁신적인 점은, SymLang 은 "정답은 하나다"라고 강변하지 않는다는 것입니다.

비유: 법정에서의 배심원단처럼요.
- 데이터가 부족하거나 여러 수식이 비슷하게 잘 맞을 때, 기존 AI 는 "A 가 정답이다!"라고 단정 짓습니다. (하지만 A 가 틀릴 수도 있습니다.)
- SymLang은 "A 가 50%, B 가 50% 확률로 맞을 수 있다"라고 정직하게 보고합니다.
- "데이터가 부족해서 둘 중 어떤 게 맞는지 알 수 없습니다. 더 많은 실험이 필요합니다"라고 알려주는 것입니다. 이는 과학적으로 훨씬 더 신뢰할 수 있는 태도입니다.

3. 실제 성과: "왜 이것이 획기적인가?"

이 논문은 133 가지의 복잡한 물리 시스템 (기계, 전기, 열, 생물 등) 을 테스트했습니다.

노이즈가 심할 때: 데이터에 10% 의 오차가 있어도, 기존 AI 들은 60% 정도만 맞추는데, SymLang 은 **83.7%**를 정확히 맞췄습니다.
정보가 부족할 때: 데이터의 절반이 숨겨져 있어도, SymLang 은 **61.2%**를 맞추고, 나머지는 "모르겠다"고 정직하게 밝혔습니다. (기존 AI 는 엉뚱한 답을 확신하며 냅니다.)
미래 예측: 배운 데이터 범위 밖에서도 물리 법칙을 위반하지 않고 정확하게 예측했습니다.

4. 결론: "과학을 위한 새로운 나침반"

이 기술은 단순히 수식을 찾는 것을 넘어, 과학자가 무엇을 믿어야 할지, 무엇을 더 실험해야 할지를 알려줍니다.

기존: "이게 정답이야!" (하지만 틀릴 수 있음)
SymLang: "이게 가장 유력한 정답이고, 이 정도 확률로 맞을 것 같아. 만약 이 두 가지가 헷갈린다면, 저쪽을 더 측정해 봐."

이처럼 SymLang 은 데이터의 노이즈와 부족함을 극복하고, 물리 법칙을 지키며, 정답이 불확실할 때는 솔직하게 인정하는 차세대 과학 발견 도구입니다. 이제 과학자들은 더 적은 데이터로도 더 신뢰할 수 있는 우주의 법칙을 찾아낼 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

과학의 핵심 목표 중 하나는 복잡한 실험 관측 데이터로부터 간결한 지배 방정식 (governing equations) 을 발견하는 것입니다. 그러나 기존 방법론들은 다음과 같은 세 가지 주요 한계에 직면해 있습니다.

노이즈와 미관측 변수: 실험 데이터는 노이즈가 포함되어 미분 추정을 어렵게 만들며, 중요한 상태 변수가 관측되지 않는 경우 (부분 관측성) 유효 역학만 접근 가능합니다.
물리적 제약의 부재: 기존 유전 프로그래밍이나 희소 회귀 (SINDy 등) 방법은 물리적 대칭성 (패리티, 회전 불변성), 차원 분석, 보존 법칙 등을 사전에 탐색 공간에서 제거하지 않아 비물리적인 후보식을 많이 생성하거나, 사후 검증만 수행합니다.
구조적 불확실성 무시: 대부분의 방법은 단일 "최고" 방정식만 반환합니다. 데이터가 여러 동등한 구조를 지지할 때, 단일 점 추정치는 오해를 불러일으키며 구조적 불확실성을 정량화하지 못합니다.

이 논문은 이러한 한계를 극복하기 위해 SymLang (Symmetry-constrained Language-guided equation discovery) 이라는 통합 프레임워크를 제안합니다.

2. 방법론: SymLang 프레임워크 (Methodology)

SymLang 은 5 단계 모듈러 파이프라인으로 구성되며, 물리적 제약과 언어 모델 기반 탐색을 결합합니다.

Stage 1: 전처리 및 미분 추정

노이즈가 있는 관측 데이터 $y(t)$ 를 부드럽게 처리하고 미분 $\dot{y}$ 를 추정합니다.
단순 유한 차분법 대신 스플라인 보간 (Smoothing Spline) 또는 총변수 정규화 (Total Variation Regularization) 기법을 사용하여 노이즈 증폭을 방지하고 정확한 미분 값을 얻습니다.

Stage 2: 무차원화 및 단위 제약

물리량의 차원 (질량, 길이, 시간 등) 을 분석하여 무차원 변수로 변환합니다.
차원 분석 (Dimensional Analysis) 을 엄격한 문법 규칙으로 적용하여, 차원이 일치하지 않는 식 (예: $\sin(\text{차원 있는 값})$ ) 은 생성 단계에서 즉시 배제합니다. 이는 후보 식 트리의 약 71.3% 를 탐색 전 제거합니다.

Stage 3: 대칭성 제약 문법 구성 (Symmetry-Constrained Grammar)

타입 일치 문법 (Typed Grammar): 각 노드에 물리적 차원, 패리티 (홀수/짝수), 불변성 클래스를 태깅합니다.
구체적 제약:
- 패리티: 시스템이 홀수/짝수 대칭성을 가지면 해당 항만 생성되도록 제한.
- 회전 불변성: SO(3) 대칭성 하에서는 벡터 성분 대신 스칼라 불변량 ( $\|x\|^2$ , $x \cdot u$ 등) 만 사용.
- 시간/갈릴레이 불변성: 자율 시스템에서는 명시적 시간 의존성 제거, 기계 시스템에서는 상대적 속도/위치만 허용.
이 단계에서 생성 가능한 식의 공간이 기하급수적으로 축소됩니다.

Stage 4: 언어 모델 기반 프로그램 합성 (Language-Guided Synthesis)

데이터 요약: 스펙트럼 특징, 대칭성 점수, 보존량 후보 등을 계산하여 간결한 텍스트 설명자로 변환합니다.
Proposer 모델: 70 억 파라미터 (7B) 의 Transformer 기반 언어 모델 (LLM) 을 미세 조정하여, 위 데이터 요약과 문법 제약을 조건으로 하여 합리적인 식 구조 (Expression Tree) 를 제안합니다.
기존 진화 알고리즘보다 탐색 공간을 효율적으로 안내하며, 물리적으로 타당한 구조를 우선적으로 생성합니다.

Stage 5: 상수 피팅 및 모델 선택

상수 최적화: 제안된 구조에 대해 미분 불일치 (derivative mismatch) 를 최소화하는 물리 상수를 L-BFGS-B 로 추정합니다. 보존 법칙 위반 시 소프트 페널티를 추가합니다.
MDL 기반 모델 선택: 단순한 적합도 (Likelihood) 가 아닌 최소 설명 길이 (MDL, Minimum Description Length) 기준을 사용하여 구조적 복잡성과 데이터 적합도의 균형을 맞춥니다.
부트스트랩 안정성 분석: 데이터의 작은 변화에 대해 모델 구조가 얼마나 안정적인지 평가하여 구조적 불확실성을 정량화합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크: 차원 분석, 군론적 대칭성, 언어 모델 기반 탐색, 베이지안 모델 선택을 하나의 파이프라인으로 통합했습니다.
강력한 탐색 공간 축소: 타입 일치 문법을 통해 후보 식의 71.3% 를 사전에 제거하여 계산 효율성을 극대화했습니다.
구조적 불확실성 정량화: 단일 정답을 강요하지 않고, 데이터가 지지하는 여러 구조의 확률 분포와 안정성을 명시적으로 보고합니다. 이는 과학적 발견 과정에서 "데이터가 불충분함"을 인지하게 해줍니다.
부분 관측성 처리: 관측되지 않은 상태 변수가 있을 때, 유효 역학 (Effective Dynamics) 학습 또는 잠재 변수 증강 (Latent Augmentation) 전략을 통해 회복력을 높였습니다.

4. 실험 결과 (Results)

133 개의 동역학 시스템 (고전 역학, 전자기학, 열역학, 인구 역학, 비선형 진동자 등) 에서 다양한 노이즈 수준과 관측 조건으로 평가되었습니다.

정확한 구조 회복률 (Exact Structural Recovery):
- 10% 노이즈 조건에서 83.7% 의 정확도를 달성했습니다.
- 차기 최강 기법인 PySR 대비 22.4%p 향상, SINDy 대비 48.8%p 향상.
- 50% 상태 가림 (Partial Observability) 조건에서도 61.2% 회복률을 보였으며 (차기 최강 DSR 의 38.4% 대비 우위), 비식별 가능 시스템을 91.3% 정확도로 "불확실"로 플래그링했습니다.
외삽 및 물리적 일관성:
- 훈련 분포 밖 (OOD) 에서의 예측 오차 (NRMSE) 가 PySR 대비 61% 감소.
- 물리적 드리프트 (보존 법칙 위반) 가 $3.1 \times 10^{-3} $로, 경쟁 기법 ($ 187.3 \times 10^{-3}$) 대비 98% 감소. 문법 제약이 외삽 시 물리 법칙 위반을 근본적으로 방지함을 입증했습니다.
샘플 효율성:
- 80% 회복률에 도달하는 데 필요한 데이터 양이 PySR 대비 4 배 적음 (약 4,800 시간 단계 vs 19,000 시간 단계).

5. 의의 및 결론 (Significance)

과학적 엄밀성: SymLang 은 단순히 예측이 좋은 모델을 만드는 것을 넘어, 물리 법칙을 위반하지 않는 해석 가능한 기호 법칙을 제공합니다.
불확실성 관리: "단 하나의 정답"을 강요하지 않고 구조적 동형성 (degeneracy) 을 명시적으로 보고함으로써, 연구자가 추가 실험이 필요한 영역을 식별할 수 있게 합니다.
재현성: 오픈 소스로 제공되며, 원시 데이터에서 해석 가능한 물리 법칙까지의 전 과정을 투명하게 재현할 수 있는 체계를 마련했습니다.

이 연구는 노이즈가 많고 데이터가 불완전한 실제 실험 환경에서도 신뢰할 수 있는 물리 법칙을 자동 발견할 수 있는 새로운 패러다임을 제시합니다.