LLM-Meta-SR: In-Context Learning for Evolving Selection Operators in Symbolic Regression

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "요리 대회와 최고의 심사위원"

상상해 보세요. 수많은 요리사 (알고리즘) 들이 모여서 **최고의 레시피 (수학적 공식)**를 찾아내는 요리 대회가 열렸습니다.

문제점: 대회에는 수천 명의 요리사가 참여하는데, 매 라운드마다 **누구를 다음 라운드에 진출시킬지 정하는 '심사위원 (선택 연산자)'**이 필요합니다.
- 기존에는 이 심사위원은 인간 전문가가 직접 만들어서 썼습니다.
- 하지만 전문가가 만든 심사위원은 때로는 너무 엄격해서 좋은 요리사가 탈락하거나, 때로는 너무 느려서 대회가 지루해지기도 했습니다.
새로운 시도 (LLM-Meta-SR): 연구팀은 "인간이 직접 심사위원을 만들지 말고, AI(대형 언어 모델) 가 스스로 심사위원을 설계하게 하자!"라고 생각했습니다.
- AI 는 과거의 대회 기록을 보고, 어떤 심사 방식이 가장 좋은 결과를 냈는지 학습합니다.
- 그리고 AI 는 "이런 심사위원 코드를 짜보자!"라고 스스로 새로운 심사위원 (선택 연산자) 을 만들어냅니다.

🚀 이 연구가 해결한 두 가지 큰 문제

AI 가 코드를 만들 때 두 가지 큰 함정에 빠지기 쉽습니다. 이 논문은 이를 clever하게 해결했습니다.

함수 1: "의미 없는 코드 폭주 (Bloat)"
- 상황: AI 는 "더 좋은 걸 만들자!"라고 생각하다가 코드를 너무 길고 복잡하게 만들어버립니다. 마치 요리를 하다가 "소금도 넣고, 후추도 넣고, 향신료도 넣고..." 하다가 결국 요리가 먹히지 않게 되는 것과 같습니다.
- 해결: 연구팀은 AI 에게 **"코드는 간결하게, 30 줄 이내로만 써라"**라고 주문했습니다. 또한, 너무 길고 복잡한 코드는 심사에서 떨어뜨리도록 규칙을 만들었습니다. 덕분에 AI 는 깔끔하고 효율적인 심사위원을 만들게 되었습니다.
함수 2: "눈치 없는 심사 (Semantic Blindness)"
- 상황: 기존 AI 는 "평균 점수만 보고" 심사위원을 고르다 보니, 특정 문제에는 천재인데 다른 문제에는 초보인 요리사와 모든 문제에서 평범한 요리사를 구별하지 못했습니다.
- 해결: 연구팀은 AI 에게 **"각 요리사가 어떤 문제에서 잘하고, 어떤 문제에서 못했는지 (세부 점수) 를 자세히 보여줘"**라고 했습니다.
- 효과: AI 는 "아! 이 요리사는 A 문제에는 천재고, 저 요리사는 B 문제에는 천재구나. 이 둘을 짝지어주면 서로 부족한 점을 채워주겠네!"라고 깨닫고, 서로 다른 강점을 가진 요리사들을 잘 조합하게 되었습니다.

🏆 결과: AI 가 만든 심사위원, 인간 전문가를 이겼다!

연구팀은 이 AI 가 만든 '오미 (Omni)'라는 심사위원을 실제 수학 문제 116 개에 적용해 보았습니다.

결과: AI 가 만든 심사위원은 인간 전문가들이 수십 년 동안 만들어온 9 가지 최고의 심사위원보다 더 좋은 점수를 받았습니다.
더 놀라운 사실: 이 '오미' 심사위원을 최신 알고리즘에 적용하자, 28 개 다른 알고리즘 (기계학습, 심층학습 등 포함) 을 모두 제치고 1 위를 차지했습니다.

💡 핵심 메시지

이 논문은 **"AI 가 단순히 문제를 푸는 것뿐만 아니라, '문제를 푸는 방법 (알고리즘)' 자체를 인간보다 더 잘 설계할 수 있다"**는 것을 증명했습니다.

과거: 인간 전문가가 "어떻게 심사할지"를 고민하며 코드를 짰다.
현재: AI 가 "어떻게 심사할지"를 스스로 학습하고, 더 똑똑하고 간결한 방법을 찾아냈다.

마치 최고의 요리사 (AI) 가 직접 '심사위원'을 훈련시켜서, 그 대회에서 더 맛있는 요리를 만들어내는 것과 같습니다. 이제 우리는 AI 가 만든 새로운 규칙을 통해 더 빠르고 정확한 과학적 발견을 할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기호 회귀 (Symbolic Regression, SR) 는 데이터에서 수학적 표현식을 자동으로 발견하는 작업으로, 해석 가능한 모델을 생성할 수 있어 다양한 분야에서 중요합니다. 기존 SR 알고리즘 (특히 유전 프로그래밍, GP 기반) 은 반복적인 학습 과정에서 해를 점진적으로 정제하기 위해 선택 연산자 (Selection Operator) 를 사용합니다.

그러나 현재 선택 연산자는 다음과 같은 한계를 가지고 있습니다:

수동 설계의 의존성: 토너먼트 선택, 레키케이스 (Lexicase) 선택 등 대부분의 연산자는 전문가가 수동으로 설계하며, 이는 시간과 노력이 많이 들고 시행착오를 요구합니다.
의미론적 정보의 부재: 기존 LLM 기반 알고리즘 진화 연구들은 주로 교차 (Crossover) 나 변이 (Mutation) 연산자에 집중했으며, 선택 연산자는 여전히 수동 설계에 의존했습니다. 또한, LLM 이 생성한 알고리즘을 평가할 때 개별 태스크에서의 미세한 성능 차이를 무시하고 평균 점수만 제공하는 경우가 많아, 상반된 강점을 가진 알고리즘 간의 시너지를 놓칠 수 있습니다.
코드 비대화 (Code Bloat): LLM 이 생성한 코드는 불필요하게 길어지거나 복잡한 경향이 있어 (Bloat), 해석 가능성과 계산 효율성을 저해합니다.

2. 제안 방법론 (Methodology)

저자들은 LLM-Meta-SR이라는 메타 학습 프레임워크를 제안하여, 컨텍스트 학습 (In-Context Learning) 을 통해 SR 알고리즘의 핵심 구성 요소인 선택 연산자를 자동으로 설계합니다.

A. 메타 진화 워크플로우 (Meta-Evolution Workflow)

이중 루프 구조:
- 외부 루프 (메타 진화): LLM 이 새로운 선택 연산자 (코드) 를 생성합니다.
- 내부 루프 (SR 실행): 생성된 선택 연산자가 여러 메타 학습 데이터셋에서 SR 알고리즘을 실행하여 성능을 평가합니다. 이 성능이 선택 연산자의 적합도 (Fitness) 가 됩니다.
해당성: 선택 연산자는 특정 SR 문제의 해가 아니라, "어떤 해를 선택할지 결정하는 전략"을 코드로 구현한 것입니다.

B. 핵심 혁신 기술 (Key Innovations)

의미론적 인식 진화 (Semantics-Aware Evolution):
- 기존 방식은 평균 성능만 고려하여 부모를 선택했으나, 본 연구는 각 데이터셋별 성능 벡터 (Score Vector) 를 LLM 에게 제공합니다.
- 상호 보완적 선택 (Complementary Selection): 특정 데이터셋에서는 잘 작동하지만 다른 데이터셋에서는 부진한 알고리즘들을 짝지어 교차시킵니다. 이를 통해 서로 다른 강점을 통합하여 모든 데이터셋에서 우수한 성능을 내는 새로운 연산자를 생성합니다.
비대화 제어 (Bloat Control):
- 프롬프트 기반 길이 제한: LLM 에게 코드 줄 수 (Lines of Code) 제한을 명시적으로 지시합니다.
- 다목적 생존 선택 (Multi-Objective Survival Selection): 성능 (Fitness) 과 코드 길이 (Complexity) 를 동시에 고려하여 생존 선택을 수행합니다. CodeBLEU 지표를 사용하여 유사한 코드가 중복되는 것을 방지하고, 성능은 좋으면서도 간결한 코드를 선별합니다.
도메인 지식 통합 (Domain Knowledge Integration):
- LLM 이 생성할 코드가 가져야 할 이상적 속성 (다양성 유지, 해석 가능성, 동적 선택 압력, 상호 보완성, 벡터화 효율성 등) 을 프롬프트에 명시하여, LLM 이 단순한 코드 생성을 넘어 전문적인 알고리즘 설계를 하도록 유도합니다.

3. 주요 기여 (Key Contributions)

자동화된 선택 연산자 설계 프레임워크: LLM 을 활용하여 SR 의 선택 연산자를 자동으로 발견하는 최초의 메타 학습 프레임워크를 제안했습니다.
비대화 및 의미론적 문제 해결: LLM 기반 코드 생성에서 발생하는 비대화 (Bloat) 문제를 해결하고, 의미론적 피드백을 통해 진화 효율성을 극대화하는 전략을 도입했습니다.
전문가 수준을 초월하는 성능: 인간 전문가가 설계한 9 가지 베이스라인 알고리즘을 모두 능가하는 선택 연산자를 발견했습니다.
최신 SR 알고리즘과의 통합: 발견된 연산자를 최신 SR 알고리즘 (RAG-SR) 에 적용하여, 116 개의 회귀 데이터셋에서 28 개의 다른 알고리즘 (SR 및 머신러닝) 대비 최고의 성능을 달성했습니다.

4. 실험 결과 (Results)

메타 학습 성능: 4 개의 고차원 데이터셋을 메타 학습에 사용했습니다. LLM-Meta-SR 은 의미론적 진화, 비대화 제어, 도메인 지식을 모두 포함했을 때 가장 높은 성능을 보였습니다.
베이스라인 비교 (SRBench):
- 발견된 'Omni' 선택 연산자는 116 개의 테스트 데이터셋에서 토너먼트 선택, 레키케이스 선택, 볼츠만 선택 등 9 가지 전문가 설계 연산자보다 통계적으로 유의미하게 높은 $R^2$ 점수를 기록했습니다.
- 특히, 해석 가능성 (Tree Size) 측면에서도 우수한 성능을 유지하며, 모델 크기가 작아도 높은 정확도를 달성했습니다.
최신 알고리즘 적용 (RAG-SR-Omni):
- 발견된 연산자를 Transformer 기반의 최신 SR 알고리즘 (RAG-SR) 에 적용한 결과, 기존 RAG-SR 보다 성능이 향상되었으며, 28 개 알고리즘 중 최고 순위 (Pareto 최적) 를 차지했습니다.
코드 효율성: 비대화 제어 기법으로 인해 생성된 코드는 평균 약 50 줄 내외로 간결하며, 토큰 비용도 크게 절감되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 대규모 언어 모델 (LLM) 이 도메인 전문가의 수동 설계를 능가하여 알고리즘의 핵심 구성 요소를 자동 설계할 수 있음을 입증했습니다.

알고리즘 설계의 자동화: 단순히 하이퍼파라미터 튜닝을 넘어, 알고리즘의 논리 구조 (선택 전략) 자체를 LLM 이 진화시킬 수 있음을 보여줍니다.
일반화 가능성: 이 프레임워크는 선택 연산자뿐만 아니라 교차나 변이 연산자 등 다른 진화 연산자나 분류 문제 등 다른 GP 기반 작업에도 확장 적용 가능합니다.
실용적 가치: LLM 이 생성한 알고리즘은 단순히 성능이 좋은 것을 넘어, 해석 가능하고 효율적이며 다양한 데이터 환경에 강건한 특성을 가지도록 설계될 수 있음을 보여줍니다.

결론적으로, LLM-Meta-SR 은 기호 회귀 및 진화 연산 분야에서 인간 전문가의 직관을 보완하고 초월할 수 있는 새로운 패러다임을 제시합니다.