Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

이 논문은 노이즈가 포함된 불완전한 관측 데이터로부터 물리 법칙을 발견하기 위해, 대칭성 제약을 적용한 문법과 언어 모델 기반 프로그램 합성, 그리고 MDL 정규화된 베이지안 모델 선택을 통합한 'SymLang' 프레임워크를 제안하며, 기존 방법론 대비 구조적 정확도와 외삽 성능을 획기적으로 향상시켰음을 보여줍니다.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SymLang(심랭)"**이라는 새로운 인공지능 도구를 소개합니다. 이 도구의 역할은 과학자들이 실험실에서 얻은 '지저분한' 데이터들을 보고, 그 뒤에 숨겨진 **우주의 법칙 (수식)**을 찾아내는 것입니다.

기존의 방법들은 데이터가 조금만 노이즈 (오차) 가 있거나, 중요한 정보가 빠져있으면 엉뚱한 결론을 내거나 아예 찾지 못했습니다. 하지만 SymLang 은 마치 엄격한 규칙을 가진 천재 탐정처럼 작동하여, 훨씬 더 정확하고 신뢰할 수 있는 법칙을 찾아냅니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "지저분한 조각난 퍼즐"

과학 실험 데이터를 상상해 보세요.

  • 노이즈 (Noise): 측정 오차로 인해 데이터가 찌그러져 있습니다. (예: 비 오는 날 사진을 찍어 흐릿함)
  • 부분 관측 (Partial Observations): 중요한 조각이 빠져있습니다. (예: 퍼즐의 50% 가 사라짐)
  • 결과: 기존 AI 들은 이 퍼즐을 맞추려다 "아마도 이 모양일 거야!"라고 확신하며 엉뚱한 그림을 그려냅니다. 하지만 그 그림은 실제 법칙과 다릅니다.

2. SymLang 의 해결책: "3 단계의 마법"

SymLang 은 이 문제를 해결하기 위해 세 가지 강력한 전략을 사용합니다.

① "물리 법칙이라는 안전장" (대칭성 제약 문법)

기존 AI 는 모든 가능한 수식을 무작위로 만들어보며 하나씩 확인합니다. 이는 시간이 너무 오래 걸리고, 물리적으로 불가능한 수식 (예: 질량이 없는 물체가 중력을 받는다) 도 만들어냅니다.

  • 비유: 레고 조립을 생각해 보세요.
    • 기존 AI 는 레고 블록을 아무렇게나 쌓아올려서 '날아다니는 자동차'를 만들려 합니다. (물리적으로 불가능하지만 AI 는 모릅니다.)
    • SymLang은 처음부터 **"중력을 무시할 수 없다", "단위 (kg, m, s) 가 맞아야 한다"**는 규칙을 레고 박스에 박아둡니다.
    • 그 결과, 물리 법칙을 위반하는 엉뚱한 조립은 처음부터 아예 만들지 않습니다. 덕분에 후보 수식을 70% 이상 줄여서, 진짜 답을 훨씬 빠르게 찾을 수 있습니다.

② "데이터를 읽는 천재 코치" (언어 모델 제안)

규칙만 있다고 해서 답이 바로 나오지는 않습니다. 수많은 규칙 속에서도 어떤 조합이 맞을지 고르는 게 중요합니다.

  • 비유: 스포츠 코치가 선수에게 조언을 해주는 것처럼요.
    • SymLang 에内置된 'AI 코치 (언어 모델)'는 데이터의 특징 (진동수, 대칭성 등) 을 빠르게 분석합니다.
    • 그리고 "이번 데이터는 저런 모양의 수식이 필요해!"라고 가장 유력한 후보 2,000 개만 골라냅니다.
    • 기존 방식이 "모든 가능성"을 다 뒤지는 것이라면, SymLang 은 "가장 그럴듯한 것"만 집중적으로 검사합니다.

③ "단 하나의 정답이 아닐 수도 있다" (불확실성 인정)

가장 혁신적인 점은, SymLang 은 "정답은 하나다"라고 강변하지 않는다는 것입니다.

  • 비유: 법정에서의 배심원단처럼요.
    • 데이터가 부족하거나 여러 수식이 비슷하게 잘 맞을 때, 기존 AI 는 "A 가 정답이다!"라고 단정 짓습니다. (하지만 A 가 틀릴 수도 있습니다.)
    • SymLang은 "A 가 50%, B 가 50% 확률로 맞을 수 있다"라고 정직하게 보고합니다.
    • "데이터가 부족해서 둘 중 어떤 게 맞는지 알 수 없습니다. 더 많은 실험이 필요합니다"라고 알려주는 것입니다. 이는 과학적으로 훨씬 더 신뢰할 수 있는 태도입니다.

3. 실제 성과: "왜 이것이 획기적인가?"

이 논문은 133 가지의 복잡한 물리 시스템 (기계, 전기, 열, 생물 등) 을 테스트했습니다.

  • 노이즈가 심할 때: 데이터에 10% 의 오차가 있어도, 기존 AI 들은 60% 정도만 맞추는데, SymLang 은 **83.7%**를 정확히 맞췄습니다.
  • 정보가 부족할 때: 데이터의 절반이 숨겨져 있어도, SymLang 은 **61.2%**를 맞추고, 나머지는 "모르겠다"고 정직하게 밝혔습니다. (기존 AI 는 엉뚱한 답을 확신하며 냅니다.)
  • 미래 예측: 배운 데이터 범위 밖에서도 물리 법칙을 위반하지 않고 정확하게 예측했습니다.

4. 결론: "과학을 위한 새로운 나침반"

이 기술은 단순히 수식을 찾는 것을 넘어, 과학자가 무엇을 믿어야 할지, 무엇을 더 실험해야 할지를 알려줍니다.

  • 기존: "이게 정답이야!" (하지만 틀릴 수 있음)
  • SymLang: "이게 가장 유력한 정답이고, 이 정도 확률로 맞을 것 같아. 만약 이 두 가지가 헷갈린다면, 저쪽을 더 측정해 봐."

이처럼 SymLang 은 데이터의 노이즈와 부족함을 극복하고, 물리 법칙을 지키며, 정답이 불확실할 때는 솔직하게 인정하는 차세대 과학 발견 도구입니다. 이제 과학자들은 더 적은 데이터로도 더 신뢰할 수 있는 우주의 법칙을 찾아낼 수 있게 되었습니다.