FactorEngine: A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Each language version is independently generated for its own context, not a direct translation.

1. 왜 새로운 시스템이 필요했을까요? (기존의 문제점)

주식 투자를 할 때 우리는 "어떤 공식을 쓰면 주가가 오를까?"를 끊임없이 고민합니다. 기존에는 크게 두 가지 방식이 있었지만, 둘 다 한계가 있었습니다.

방식 A: 수학 공식만 믿는 사람 (기호 기반)
- 비유: 요리사에게 "소금, 설탕, 간장만 섞어라"라고 제한된 재료만 준 경우입니다.
- 문제: 재료가 너무 적어서 맛있는 새로운 요리 (예: 매운탕) 를 만들 수 없습니다. 시장이 변하면 금방 맛이 없어집니다.
방식 B: AI 가 다 알아서 하는 사람 (신경망 기반)
- 비유: AI 가 맛없는 음식을 만들어도 "왜 그런지" 설명을 못 하는 경우입니다.
- 문제: AI 가 너무 많은 데이터를 외워서 (과적합), 실제 시장에서 실패할 때 왜 실패했는지 알 수 없어 위험합니다.

2. FactorEngine 은 무엇인가요? (핵심 아이디어)

FactorEngine 은 **"코딩을 할 줄 아는 요리사"**입니다. 이 시스템은 단순히 수식만 만드는 게 아니라, 파이썬 (Python) 코드로 된 완전한 프로그램을 만들어냅니다.

비유: 기존 방식이 "레시피 카드"만 주고 있다면, FactorEngine 은 **"요리사 로봇"**을 줍니다. 이 로봇은 레시피를 읽고, 재료를 사오고, 요리하고, 맛을 본 뒤 "다음엔 소금을 조금 덜 넣고, 불을 더 세게 해보자"며 스스로 레시피를 고쳐 나갑니다.

3. FactorEngine 의 3 가지 비밀 무기

이 시스템이 다른 것들보다 뛰어난 이유는 세 가지 전략을 섞었기 때문입니다.

① "아이디어"와 "숫자"를 분리하다 (논리 vs 파라미터)

상황: 요리사가 "새로운 메뉴를 개발하자 (아이디어)"고 생각할 때, 동시에 "소금 3g, 3.5g, 4g 중 어느 게 좋을까 (숫자)"를 고민하면 머리가 아픕니다.
FactorEngine 의 해결:
- LLM(거대 언어 모델) 요리사: "새로운 메뉴 아이디어"를 내고, "왜 이 레시피가 좋은지"를 설명합니다. (논리 수정)
- 컴퓨터 계산기: "소금 3g vs 4g"처럼 숫자만 빠르게 테스트해 최적의 값을 찾아냅니다. (파라미터 최적화)
- 효과: 두 가지 일을 동시에 하지 않아 훨씬 빠르고 똑똑해집니다.

② "실패 경험"을 배우는 지도 (경험의 사슬)

상황: 요리사가 실패한 요리를 보고 "아, 불이 너무 세서 탔구나"라고 배워야 합니다.
FactorEngine 의 해결: 시스템은 과거의 모든 시도 (성공한 것뿐만 아니라 실패한 것까지) 를 기록합니다. "어떤 레시피를 고쳤더니 실패했더라"라는 **경험의 사슬 (Chain of Experience)**을 AI 에게 보여줍니다.
효과: AI 는 실패를 두려워하지 않고, 실패한 경로를 분석해서 더 나은 방향으로 나아갑니다.

③ "섬"을 만들어 함께 발전하다 (다중 섬 진화)

상황: 요리사 한 명이 고립되어 있으면 새로운 아이디어가 나오기 어렵습니다.
FactorEngine 의 해결: 여러 개의 독립된 '섬' (프로세스) 을 만들어 각기 다른 레시피를 개발하게 합니다. 일정 시간이 지나면 각 섬에서 가장 맛있는 요리를 다른 섬에 가져와 공유합니다.
효과: 한 섬에서 발견한 좋은 아이디어가 다른 섬으로 퍼져나가 전체적인 요리 실력이 급격히 향상됩니다.

4. 실제 성과는 어떨까요?

이 시스템을 실제 주식 시장 데이터 (한국 증시 등) 로 테스트한 결과는 매우 훌륭했습니다.

예측 정확도: 기존 최고의 방법들보다 주가 상승/하락을 더 정확하게 예측했습니다.
수익률: 투자 포트폴리오의 수익률이 크게 증가했고, 손실 (최대 낙폭) 은 줄였습니다.
다양성: 같은 종류의 요리 (유사한 주식 공식을) 를 많이 만들지 않고, 서로 다른 다양한 레시피를 만들어내어 위험을 분산시켰습니다.
가독성: AI 가 만든 코드는 사람이 읽을 수 있어, "왜 이 공식이 돈을 벌게 했는지"를 검증할 수 있습니다.

5. 한 줄 요약

FactorEngine은 "수학 공식만 고집하거나, 블랙박스 AI 에만 의존하지 않고, 코딩을 할 줄 아는 AI 요리사에게 시장이라는 주방을 맡겨, 실패 경험을 바탕으로 스스로 레시피를 고쳐가며 최고의 수익을 내는 시스템을 만든 것"입니다.

이 시스템은 금융 전문가들이 수동으로 하던 복잡한 작업을 자동화하면서도, 그 과정이 투명하고 검증 가능하도록 만들어 투자 시장의 새로운 표준을 제시합니다.

Each language version is independently generated for its own context, not a direct translation.

FactorEngine: 양적 투자를 위한 프로그램 수준의 지식 주입형 팩터 마이닝 프레임워크

1. 문제 정의 (Problem)

양적 투자에서 '알파 팩터 (Alpha Factor)' 마이닝은 잡음과 비정상성 (non-stationary) 이 공존하는 시장 데이터에서 예측 가능한 신호를 자동화하여 발견하는 핵심 과제입니다. 기존 방법론들은 다음과 같은 한계를 가지고 있습니다:

심볼릭 (Symbolic) 기반 방법: 수학적 표현식에 기반하여 해석 가능성은 높으나, 제한된 연산자 공간으로 인해 표현력이 부족하고 (bounded expressiveness), 시장 환경 변화에 취약하며 수동 설계에 의존도가 높습니다.
신경망 (Neural Network) 기반 방법: 비선형 관계를 포착하여 예측 성능은 높일 수 있으나, 해석이 어렵고 (black-box), 과적합 (overfitting) 에 취약하며 regimeshift(시장 체제 변화) 에 약합니다.
LLM 기반 방법의 비효율성: 최근 LLM 을 활용한 에이전트 기반 방법들이 등장했으나, 논리 진화와 파라미터 최적화를 동시에 수행하여 계산 비용이 높고 진화 효율이 낮다는 문제가 있습니다.

핵심 도전 과제:

제한된 심볼릭 표현으로 인한 표현력 부족.
금융 보고서 등 비정형 지식과 실행 가능한 팩터 간의 변환 부재.
LLM 생성 속도와 백테스팅 평가 속도 간의 불균형으로 인한 비효율적인 진화 파이프라인.

2. 방법론 (Methodology)

**FactorEngine (FE)**은 팩터를 튜링 완전 (Turing-complete) 한 코드 (Python) 로 표현하고, 세 가지 분리 (Separation) 전략을 통해 효율성과 효과성을 극대화하는 프로그램 수준의 진화 프레임워크입니다.

A. 핵심 아키텍처 및 3 가지 분리 전략

논리 vs. 파라미터 최적화 분리: 프로그램의 논리/아이디어 진화와 파라미터 최적화를 분리합니다.
LLM 유도 방향성 탐색 vs. 베이지안 하이퍼파라미터 탐색 분리: LLM 은 고수준 논리 (Macro) 수정을 담당하고, 베이지안 최적화 (Micro) 는 파라미터 튜닝을 자동화합니다.
LLM 사용 vs. 로컬 계산 자원 분리: LLM 은 코드 생성 및 수정에만 사용되고, 고부하인 백테스팅은 로컬 병렬 컴퓨팅에서 수행됩니다.

B. 주요 모듈

부트스트래핑 모듈 (Bootstrapping Module):
- 비정형 금융 보고서 (Research Reports) 를 실행 가능한 Python 코드 팩터로 변환하는 폐쇄 루프 (Closed-loop) 멀티 에이전트 파이프라인을 제공합니다.
- 프로세스: PDF 처리 $\rightarrow$ 핵심 아이디어 추출 (Pseudocode) $\rightarrow$ 코드 생성 및 검증 $\rightarrow$ 실행 가능 코드 (Executable Python) 로 변환.
- 이를 통해 사전 지식 (Prior Knowledge) 을 팩터 풀에 주입합니다.
진화 모듈 (Evolution Module):
- 매크로 - 마이크로 공진화 (Macro-Micro Co-evolution):
  - Macro (LLM): 경험의 사슬 (Chain of Experience, CoE) 을 기반으로 논리적 변이 (Macro Mutation) 를 제안합니다. CoE 는 과거의 성공/실패 경로를 포함하여 LLM 이 실패로부터 학습하고 방향을 수정하도록 돕습니다.
  - Micro (Bayesian Search): 윈도우 크기, 감쇠 인자 등 파라미터를 베이지안 최적화 (TPE, Gaussian Process 등) 를 통해 자동으로 튜닝합니다.
- 멀티 아일랜드 (Multi-island) 전략: 독립적인 진화 프로세스를 여러 개 실행하고 주기적으로 우수한 프로그램을 이동 (Migration) 시켜 다양성을 유지하고 지역 최적점 (Local Optima) 문제를 해결합니다.
- UCB 기반 선택: 트리 구조의 프로그램 풀에서 탐색 (Exploration) 과 활용 (Exploitation) 을 균형 있게 조절하기 위해 UCT (Upper Confidence Bound for Trees) 기준을 사용합니다.
통합 모듈 (Integration Module):
- 진화된 팩터 풀에서 상위 엘리트 노드를 선별하여 다중 팩터 모델을 구성하고, IC, ICIR, Sharpe Ratio 등 포트폴리오 지표를 기반으로 백테스팅을 수행합니다.

3. 주요 기여 (Key Contributions)

프로그램 수준 하이퍼 휴리스틱 프레임워크: 팩터 마이닝을 튜링 완전한 프로그램 진화 문제로 재정의하여, 복잡한 제어 흐름과 조건부 논리를 포함한 유연한 모델링을 가능하게 했습니다.
매크로 - 마이크로 공진화 메커니즘: LLM 기반 논리 진화와 베이지안 기반 파라미터 최적화를 분리하여 계산 효율성을 극대화하고 파라미터의 지역 최적점 문제를 해결했습니다.
지식 주입형 팩터 다양성: 비정형 금융 보고서를 실행 가능한 코드로 변환하는 자동화 모듈을 통해, 이론적 배경이 명확한 다양한 팩터를 생성하고 기존 방법론 대비 팩터 풀의 다양성을 높였습니다.

4. 실험 결과 (Results)

실제 시장 데이터 (CSI300, CSI500) 를 활용한 광범위한 백테스팅 결과, FactorEngine 은 기존 SOTA 방법론들을 압도적으로 능가했습니다.

예측 및 포트폴리오 성능:
- CSI300: FE-report(보고서 기반) 는 IC 0.0474, 연평균 초과 수익률 (AR) 18.99% 를 기록하여 Alpha158 대비 IC 는 58%, 초과 수익률은 126% 향상되었습니다.
- CSI500: FE-report 는 IC 0.0536, AR 8.36% 를 달성했습니다.
- 기존 LGBM, LSTM, Transformer 및 AlphaAgent, RD-Agent 와 비교하여 모든 지표 (IC, ICIR, Sharpe Ratio, MDD 등) 에서 우월한 성능을 보였습니다.
팩터 다양성 (Diversity):
- 다차원 척도법 (MDS) 분석 결과, FE 는 생성된 팩터들이 공간적으로 더 넓게 분산되어 있어 (Radius of Gyration 최대), 중복성이 적고 상호 보완적인 알파 신호를 제공함을 확인했습니다.
알파 감쇠 (Alpha Decay) 및 안정성:
- 시간 경과에 따른 IC 추이 분석에서 FE 는 다른 방법론들보다 감쇠가 적고, 2021 년 이후 오히려 성능이 개선되는 등 시장 변화에 대한 적응력이 뛰어났습니다.
효율성 (Token Efficiency & Executability):
- RD-Agent 나 AlphaAgent 대비 실행 가능 코드 비율이 99% 에 달하며, 디버깅을 위한 API 호출 횟수가 현저히 적고, 병렬 처리를 통해 실행 시간이 0.5 시간으로 단축되었습니다.

5. 의의 및 결론 (Significance)

FactorEngine 은 단순한 심볼릭 표현의 확장을 넘어, 프로그램 수준의 진화를 통해 양적 투자 분야의 새로운 패러다임을 제시합니다.

실용성: 생성된 팩터는 즉시 실행 가능하고 감사 (Auditable) 가 가능하며, 복잡한 시장 조건에 적응력이 높습니다.
지식 활용: 금융 보고서와 같은 비정형 데이터를 체계적으로 구조화하여 모델에 주입함으로써, 데이터 중심의 접근과 도메인 지식의 결합을 성공적으로 구현했습니다.
확장성: 이 프레임워크는 알파 마이닝뿐만 아니라, 실행 비용이 높은 블랙박스 이산 최적화 문제 (Discrete Optimization) 전반에 적용 가능한 범용적인 최적화 프레임워크로 확장될 수 있습니다.

결론적으로, FactorEngine 은 LLM 의 추론 능력과 베이지안 최적화의 정밀함을 결합하여, 효율성, 해석 가능성, 그리고 예측 성능을 동시에 달성한 차세대 양적 투자 솔루션입니다.