Forecasting Future Language: Context Design for Mention Markets

Each language version is independently generated for its own context, not a direct translation.

🥩 비유: 스테이크 굽기 대회

상상해 보세요. 여러분은 **스테이크가 잘 익었는지 (성공할지)**를 예측하는 대회를 하고 있습니다.

예측 시장 (The Market):
- 여기는 수많은 사람들이 모여서 "이번 스테이크는 잘 익을 거야 (YES)"라고 말하면 1 달러, "안 익을 거야 (NO)"라고 말하면 0 달러를 주고 거래하는 곳입니다.
- 사람들이 많이 "YES"라고 하면 가격이 0.8 달러가 되고, 이는 **"80% 확률로 잘 익을 것이다"**라는 뜻입니다.
- 이 '시장 가격'은 수많은 사람의 지혜가 모인 **최고의 기본값 (Prior)**입니다.
AI (LLM):
- AI 는 이 스테이크를 굽는 요리사입니다.
- AI 는 뉴스 기사나 회사의 과거 말투 (전사록) 를 읽고 "음, 이번엔 소스가 잘 배어들었으니 잘 익을 것 같아!"라고 예측합니다.

❓ 문제: AI 가 시장보다 더 잘할 수 있을까?

과거 연구들은 AI 가 사람보다 잘할 수도 있다고 했지만, 어떻게 정보를 주느냐에 따라 결과가 완전히 달랐습니다.

잘못된 방법: 시장 가격 (80%) 을 그냥 옆에 "참고하세요"라고 적어주고 AI 에게 "너가 다시 예측해 봐"라고 하면, AI 는 시장 가격을 무시하고 제멋대로 예측하거나 혼란을 겪습니다. (마치 요리사에게 "사람들이 80% 라는데, 너는 100% 라"라고 강요하는 꼴입니다.)
이 논문의 핵심 아이디어 (MCP):
- "야 요리사야, 사람들이 80% 확률이라고 믿고 있어. 하지만 너는 뉴스와 과거 기록을 봤잖아? 그 정보를 바탕으로 그 80% 를 수정해 봐."
- 즉, 시장 가격을 **무시하지 않고 '출발점 (기초)'**으로 삼고, AI 는 그 출발점에 새로운 증거를 더해서 최종 답을 내는 것입니다.

🚀 이 논문이 발견한 3 가지 비밀

연구팀은 이 방식을 '마케팅 조건부 프롬프팅 (MCP)'이라고 불렀는데, 실험 결과 세 가지 놀라운 사실을 발견했습니다.

1. 정보가 많을수록 더 잘한다 (Richer Context)

비유: 요리사가 스테이크를 굽기 전에 **과거 레시피 (과거 earnings call)**와 **오늘의 신선한 재료 뉴스 (News)**를 모두 읽으면, 아무 정보 없이 굽는 것보다 훨씬 맛있게 구울 수 있습니다.
결과: AI 에게 관련 뉴스와 과거 기록을 모두 넣어주면 예측 정확도가 확실히 올라갔습니다.

2. 시장 가격을 '출발점'으로 삼아야 한다 (MCP)

비유: 시장 가격이 "50% (아직 불확실해)"라고 할 때, AI 는 "아, 사람들이 아직 확신이 없구나. 내가 뉴스와 과거 기록을 보니 'YES'일 확률이 훨씬 높네!"라고 수정할 수 있습니다.
결과: 시장 가격을 무시하고 처음부터 다시 예측하는 것보다, 시장 가격을 '기초'로 삼아 수정하는 방식이 훨씬 정확하고 신뢰할 수 있는 (Calibrated) 결과를 냈습니다. 특히 시장이 "어디로 갈지 모르겠다 (중간 확률)"고 할 때 AI 가 가장 큰 도움을 줍니다.

3. 둘을 섞으면 최강이 된다 (MixMCP)

비유: AI 가 너무 자신감 넘쳐서 실수를 할 수도 있습니다. 그래서 **"시장의 지혜 (70%)"**와 **"AI 의 수정 (30%)"**를 적당히 섞는 것이 가장 좋습니다.
결과: 시장 가격만 믿는 것보다, AI 가 수정한 내용을 섞은 **'혼합 모델 (MixMCP)'**이 가장 낮은 오류율을 보였습니다. 시장이 틀렸을 때 AI 가 잡아주고, AI 가 너무 과장했을 때 시장이 잡아주는 상호 보완 효과가 생긴 것입니다.

💡 결론: 왜 이 연구가 중요할까?

이 논문은 **"AI 가 시장을 대체할 필요는 없다"**는 메시지를 줍니다.

오히려 **시장은 '안정적인 나침반'**이고, **AI 는 '새로운 정보를 찾아내는 탐험가'**입니다. 탐험가 (AI) 가 나침반 (시장) 을 무시하고 혼자 달리는 것보다, 나침반을 보며 새로운 길을 찾아 수정해 주는 것이 훨씬 더 정확한 도착 지점 (미래 예측) 에 도달하게 해줍니다.

한 줄 요약:

"시장의 의견 (가격) 을 무시하지 말고, 그것을 '기본값'으로 삼아 AI 가 뉴스와 자료를 통해 그 값을 '수정'하게 하면, 둘 다 혼자 할 때보다 훨씬 더 미래를 잘 예측할 수 있다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 예측 시장 (Prediction Markets) 은 미래 사건의 발생 확률을 계약 가격으로 나타내며, 이는 시장 참여자들의 집단적 지능을 반영합니다. 최근 대규모 언어 모델 (LLM) 이 인간 예측자나 예측 시장과 경쟁할 수 있는 확률적 예측을 생성할 수 있음이 입증되었습니다.
핵심 질문: LLM 과 예측 시장을 경쟁시키기보다, 어떻게 입력 컨텍스트 (Context) 를 설계하여 시장이 내포한 확률 (Market-implied Probability) 을 보완하고 정확도를 높일 수 있을까?
연구 대상: '멘션 마켓 (Mention Markets)'입니다. 이는 특정 키워드가 향후 공개되는 이사회 (Earnings Call) 의 공식 대본에 언급될지 여부를 예측하는 시장입니다.
- 특징: 결과 (키워드 언급 여부) 가 객관적으로 검증 가능하며, LLM 의 언어 이해 및 생성 능력과 밀접하게 연관된 과제입니다.

2. 방법론 (Methodology)

연구진은 이사회 대본 전의 텍스트 정보 (뉴스, 이전 대본) 를 활용하여 시장 확률을 어떻게 업데이트할지 세 가지 접근법을 비교 분석했습니다.

가. 입력 데이터 구성

시장 신호 ( $p_{mkt}$ ): 이사회 전 시점의 Kalshi 계약 가격 (YES 계약 가격).
텍스트 컨텍스트:
- $T_i$ : 직전 분기 이사회 대본 (Transcript).
- $N_i$ : 기업 관련 뉴스 기사 (최대 100 개).
모델: GPT-5.1 을 사용하며, 파인튜닝 없이 프롬프트 엔지니어링만 적용했습니다.

나. 제안된 기법들

Plain Text Baseline (W/O Prompting): 시장 확률을 단순히 다른 텍스트 정보와 함께 프롬프트에 포함시키는 방식. 모델이 이를 '우선순위 (Prior)'로 인식하도록 명시하지 않음.
Market-Conditioned Prompting (MCP):
- 핵심 아이디어: 시장 확률을 **사전 확률 (Prior)**로 명시적으로 정의하고, LLM 에게 텍스트 증거 (뉴스, 대본) 를 바탕으로 이 사전 확률을 **수정 (Update)**하도록 지시합니다.
- 수식: $p^{MCP}_i = LLM_\theta(T_i, N_i | p^{mkt}_i)$
- LLM 이 처음부터 확률을 예측하는 것이 아니라, 시장이 제시한 베이스라인을 텍스트 증거로 업데이트하는 역할을 수행합니다.
MixMCP (Mixture Forecast):
- LLM 의 업데이트가 과도하게 민감할 수 있으므로, 시장 확률과 MCP 결과를 볼록 결합 (Convex Mixture) 합니다.
- 수식: $p^{mixMCP}_i = \alpha p^{mkt}_i + (1 - \alpha) p^{MCP}_i$
- 실험 결과 $\alpha = 0.7$ (시장 확률에 더 높은 가중치) 에서 최적의 성능을 보였습니다.

3. 주요 기여 (Key Contributions)

프레임워크 정립: 텍스트 기반 예측을 '시장 확률 업데이트 문제'로 공식화했습니다. LLM 을 독립적인 예측자가 아닌, 시장 신호를 텍스트 증거로 보정하는 도구로 재정의했습니다.
방법론 제안 (MCP): 시장 가격을 명시적인 Prior 로 활용하여 LLM 의 프롬프팅 프로토콜을 설계했습니다. 이는 기존 단순 프롬프팅보다 훨씬 잘 교정된 (Well-calibrated) 예측을 가능하게 합니다.
성능 입증: 시장 확률과 MCP 의 혼합 모델 (MixMCP) 이 시장 단독 또는 LLM 단독보다 우수한 예측 성능을 보임을 실증했습니다.

4. 실험 결과 (Results)

데이터셋: 2025 년 4 월~12 월, 50 개 기업, 70 건의 이사회 이벤트에 걸친 856 개의 Kalshi 시장 데이터.
성능 지표: Brier Score (낮을수록 좋음), ECE (Expected Calibration Error, 낮을수록 좋음), 정확도 (Accuracy).

방법	Brier Score	ECE	정확도 (Acc)	비고
Market Only	0.1402	0.0651	79.8%	베이스라인
MCP	0.1470	0.0514	78.2%	교정 능력은 가장 우수하나 Brier 는 시장보다 낮음
MixMCP	0.1392	0.0666	80.3%	최고의 종합 성능

주요 인사이트:
1. 풍부한 컨텍스트의 효과: 뉴스만 제공된 경우보다, 이전 이사회 대본 ( $T$ ) 과 뉴스 ( $N$ ) 를 모두 제공할 때 예측 성능이 가장 높았습니다.
2. MCP 의 교정 효과: 시장 확률을 단순히 입력으로 주는 것보다, 이를 '수정해야 할 Prior'로 명시적으로 지시하는 (MCP) 것이 ECE 를 크게 개선했습니다 (0.071 $\to$ 0.051).
3. 중간 신뢰도 구간에서의 우위: 시장 확률이 불확실한 구간 (50~70%) 에서 MCP 가 시장 예측보다 더 낮은 Brier Score 를 기록하며, 모호함을 해소하는 데 효과적이었습니다.
4. MixMCP 의 우월성: LLM 의 업데이트를 시장 Prior 로 적절히 감쇠 (Dampening) 시킨 MixMCP ( $\alpha=0.7$ ) 가 시장 단독보다 낮은 Brier Score 와 높은 정확도를 달성했습니다.

5. 의의 및 결론 (Significance & Conclusion)

상호 보완적 관계: LLM 은 예측 시장을 대체하는 것이 아니라, 텍스트 기반 증거를 통해 시장의 불확실성을 해소하고 예측을 정교화하는 보조 도구 (Complementary Refinement) 역할을 할 수 있음을 증명했습니다.
컨텍스트 설계의 중요성: LLM 을 예측 모델로 사용할 때, 단순히 정보를 나열하는 것이 아니라 시장 신호를 Prior 로 설정하고 업데이트를 유도하는 프롬프트 설계가 성능에 결정적인 영향을 미칩니다.
실용적 가치: 효율적인 시장에서도 LLM 은 추가적인 텍스트 정보를 통해 예측 정확도를 높일 수 있으며, 이를 위해 시장 확률과 LLM 추론을 적절히 혼합하는 전략 (MixMCP) 이 가장 효과적입니다.

이 논문은 예측 시장과 LLM 의 결합을 위한 새로운 패러다임을 제시하며, 특히 금융 및 기업 정보 예측 분야에서 텍스트 기반 신호의 활용 가치를 입증했습니다.