Each language version is independently generated for its own context, not a direct translation.
🥩 비유: 스테이크 굽기 대회
상상해 보세요. 여러분은 **스테이크가 잘 익었는지 (성공할지)**를 예측하는 대회를 하고 있습니다.
예측 시장 (The Market):
- 여기는 수많은 사람들이 모여서 "이번 스테이크는 잘 익을 거야 (YES)"라고 말하면 1 달러, "안 익을 거야 (NO)"라고 말하면 0 달러를 주고 거래하는 곳입니다.
- 사람들이 많이 "YES"라고 하면 가격이 0.8 달러가 되고, 이는 **"80% 확률로 잘 익을 것이다"**라는 뜻입니다.
- 이 '시장 가격'은 수많은 사람의 지혜가 모인 **최고의 기본값 (Prior)**입니다.
AI (LLM):
- AI 는 이 스테이크를 굽는 요리사입니다.
- AI 는 뉴스 기사나 회사의 과거 말투 (전사록) 를 읽고 "음, 이번엔 소스가 잘 배어들었으니 잘 익을 것 같아!"라고 예측합니다.
❓ 문제: AI 가 시장보다 더 잘할 수 있을까?
과거 연구들은 AI 가 사람보다 잘할 수도 있다고 했지만, 어떻게 정보를 주느냐에 따라 결과가 완전히 달랐습니다.
- 잘못된 방법: 시장 가격 (80%) 을 그냥 옆에 "참고하세요"라고 적어주고 AI 에게 "너가 다시 예측해 봐"라고 하면, AI 는 시장 가격을 무시하고 제멋대로 예측하거나 혼란을 겪습니다. (마치 요리사에게 "사람들이 80% 라는데, 너는 100% 라"라고 강요하는 꼴입니다.)
- 이 논문의 핵심 아이디어 (MCP):
- "야 요리사야, 사람들이 80% 확률이라고 믿고 있어. 하지만 너는 뉴스와 과거 기록을 봤잖아? 그 정보를 바탕으로 그 80% 를 수정해 봐."
- 즉, 시장 가격을 **무시하지 않고 '출발점 (기초)'**으로 삼고, AI 는 그 출발점에 새로운 증거를 더해서 최종 답을 내는 것입니다.
🚀 이 논문이 발견한 3 가지 비밀
연구팀은 이 방식을 '마케팅 조건부 프롬프팅 (MCP)'이라고 불렀는데, 실험 결과 세 가지 놀라운 사실을 발견했습니다.
1. 정보가 많을수록 더 잘한다 (Richer Context)
- 비유: 요리사가 스테이크를 굽기 전에 **과거 레시피 (과거 earnings call)**와 **오늘의 신선한 재료 뉴스 (News)**를 모두 읽으면, 아무 정보 없이 굽는 것보다 훨씬 맛있게 구울 수 있습니다.
- 결과: AI 에게 관련 뉴스와 과거 기록을 모두 넣어주면 예측 정확도가 확실히 올라갔습니다.
2. 시장 가격을 '출발점'으로 삼아야 한다 (MCP)
- 비유: 시장 가격이 "50% (아직 불확실해)"라고 할 때, AI 는 "아, 사람들이 아직 확신이 없구나. 내가 뉴스와 과거 기록을 보니 'YES'일 확률이 훨씬 높네!"라고 수정할 수 있습니다.
- 결과: 시장 가격을 무시하고 처음부터 다시 예측하는 것보다, 시장 가격을 '기초'로 삼아 수정하는 방식이 훨씬 정확하고 신뢰할 수 있는 (Calibrated) 결과를 냈습니다. 특히 시장이 "어디로 갈지 모르겠다 (중간 확률)"고 할 때 AI 가 가장 큰 도움을 줍니다.
3. 둘을 섞으면 최강이 된다 (MixMCP)
- 비유: AI 가 너무 자신감 넘쳐서 실수를 할 수도 있습니다. 그래서 **"시장의 지혜 (70%)"**와 **"AI 의 수정 (30%)"**를 적당히 섞는 것이 가장 좋습니다.
- 결과: 시장 가격만 믿는 것보다, AI 가 수정한 내용을 섞은 **'혼합 모델 (MixMCP)'**이 가장 낮은 오류율을 보였습니다. 시장이 틀렸을 때 AI 가 잡아주고, AI 가 너무 과장했을 때 시장이 잡아주는 상호 보완 효과가 생긴 것입니다.
💡 결론: 왜 이 연구가 중요할까?
이 논문은 **"AI 가 시장을 대체할 필요는 없다"**는 메시지를 줍니다.
오히려 **시장은 '안정적인 나침반'**이고, **AI 는 '새로운 정보를 찾아내는 탐험가'**입니다. 탐험가 (AI) 가 나침반 (시장) 을 무시하고 혼자 달리는 것보다, 나침반을 보며 새로운 길을 찾아 수정해 주는 것이 훨씬 더 정확한 도착 지점 (미래 예측) 에 도달하게 해줍니다.
한 줄 요약:
"시장의 의견 (가격) 을 무시하지 말고, 그것을 '기본값'으로 삼아 AI 가 뉴스와 자료를 통해 그 값을 '수정'하게 하면, 둘 다 혼자 할 때보다 훨씬 더 미래를 잘 예측할 수 있다."
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Definition)
- 배경: 예측 시장 (Prediction Markets) 은 미래 사건의 발생 확률을 계약 가격으로 나타내며, 이는 시장 참여자들의 집단적 지능을 반영합니다. 최근 대규모 언어 모델 (LLM) 이 인간 예측자나 예측 시장과 경쟁할 수 있는 확률적 예측을 생성할 수 있음이 입증되었습니다.
- 핵심 질문: LLM 과 예측 시장을 경쟁시키기보다, 어떻게 입력 컨텍스트 (Context) 를 설계하여 시장이 내포한 확률 (Market-implied Probability) 을 보완하고 정확도를 높일 수 있을까?
- 연구 대상: '멘션 마켓 (Mention Markets)'입니다. 이는 특정 키워드가 향후 공개되는 이사회 (Earnings Call) 의 공식 대본에 언급될지 여부를 예측하는 시장입니다.
- 특징: 결과 (키워드 언급 여부) 가 객관적으로 검증 가능하며, LLM 의 언어 이해 및 생성 능력과 밀접하게 연관된 과제입니다.
2. 방법론 (Methodology)
연구진은 이사회 대본 전의 텍스트 정보 (뉴스, 이전 대본) 를 활용하여 시장 확률을 어떻게 업데이트할지 세 가지 접근법을 비교 분석했습니다.
가. 입력 데이터 구성
- 시장 신호 (pmkt): 이사회 전 시점의 Kalshi 계약 가격 (YES 계약 가격).
- 텍스트 컨텍스트:
- Ti: 직전 분기 이사회 대본 (Transcript).
- Ni: 기업 관련 뉴스 기사 (최대 100 개).
- 모델: GPT-5.1 을 사용하며, 파인튜닝 없이 프롬프트 엔지니어링만 적용했습니다.
나. 제안된 기법들
- Plain Text Baseline (W/O Prompting): 시장 확률을 단순히 다른 텍스트 정보와 함께 프롬프트에 포함시키는 방식. 모델이 이를 '우선순위 (Prior)'로 인식하도록 명시하지 않음.
- Market-Conditioned Prompting (MCP):
- 핵심 아이디어: 시장 확률을 **사전 확률 (Prior)**로 명시적으로 정의하고, LLM 에게 텍스트 증거 (뉴스, 대본) 를 바탕으로 이 사전 확률을 **수정 (Update)**하도록 지시합니다.
- 수식: piMCP=LLMθ(Ti,Ni∣pimkt)
- LLM 이 처음부터 확률을 예측하는 것이 아니라, 시장이 제시한 베이스라인을 텍스트 증거로 업데이트하는 역할을 수행합니다.
- MixMCP (Mixture Forecast):
- LLM 의 업데이트가 과도하게 민감할 수 있으므로, 시장 확률과 MCP 결과를 볼록 결합 (Convex Mixture) 합니다.
- 수식: pimixMCP=αpimkt+(1−α)piMCP
- 실험 결과 α=0.7 (시장 확률에 더 높은 가중치) 에서 최적의 성능을 보였습니다.
3. 주요 기여 (Key Contributions)
- 프레임워크 정립: 텍스트 기반 예측을 '시장 확률 업데이트 문제'로 공식화했습니다. LLM 을 독립적인 예측자가 아닌, 시장 신호를 텍스트 증거로 보정하는 도구로 재정의했습니다.
- 방법론 제안 (MCP): 시장 가격을 명시적인 Prior 로 활용하여 LLM 의 프롬프팅 프로토콜을 설계했습니다. 이는 기존 단순 프롬프팅보다 훨씬 잘 교정된 (Well-calibrated) 예측을 가능하게 합니다.
- 성능 입증: 시장 확률과 MCP 의 혼합 모델 (MixMCP) 이 시장 단독 또는 LLM 단독보다 우수한 예측 성능을 보임을 실증했습니다.
4. 실험 결과 (Results)
- 데이터셋: 2025 년 4 월~12 월, 50 개 기업, 70 건의 이사회 이벤트에 걸친 856 개의 Kalshi 시장 데이터.
- 성능 지표: Brier Score (낮을수록 좋음), ECE (Expected Calibration Error, 낮을수록 좋음), 정확도 (Accuracy).
| 방법 |
Brier Score |
ECE |
정확도 (Acc) |
비고 |
| Market Only |
0.1402 |
0.0651 |
79.8% |
베이스라인 |
| MCP |
0.1470 |
0.0514 |
78.2% |
교정 능력은 가장 우수하나 Brier 는 시장보다 낮음 |
| MixMCP |
0.1392 |
0.0666 |
80.3% |
최고의 종합 성능 |
- 주요 인사이트:
- 풍부한 컨텍스트의 효과: 뉴스만 제공된 경우보다, 이전 이사회 대본 (T) 과 뉴스 (N) 를 모두 제공할 때 예측 성능이 가장 높았습니다.
- MCP 의 교정 효과: 시장 확률을 단순히 입력으로 주는 것보다, 이를 '수정해야 할 Prior'로 명시적으로 지시하는 (MCP) 것이 ECE 를 크게 개선했습니다 (0.071 → 0.051).
- 중간 신뢰도 구간에서의 우위: 시장 확률이 불확실한 구간 (50~70%) 에서 MCP 가 시장 예측보다 더 낮은 Brier Score 를 기록하며, 모호함을 해소하는 데 효과적이었습니다.
- MixMCP 의 우월성: LLM 의 업데이트를 시장 Prior 로 적절히 감쇠 (Dampening) 시킨 MixMCP (α=0.7) 가 시장 단독보다 낮은 Brier Score 와 높은 정확도를 달성했습니다.
5. 의의 및 결론 (Significance & Conclusion)
- 상호 보완적 관계: LLM 은 예측 시장을 대체하는 것이 아니라, 텍스트 기반 증거를 통해 시장의 불확실성을 해소하고 예측을 정교화하는 보조 도구 (Complementary Refinement) 역할을 할 수 있음을 증명했습니다.
- 컨텍스트 설계의 중요성: LLM 을 예측 모델로 사용할 때, 단순히 정보를 나열하는 것이 아니라 시장 신호를 Prior 로 설정하고 업데이트를 유도하는 프롬프트 설계가 성능에 결정적인 영향을 미칩니다.
- 실용적 가치: 효율적인 시장에서도 LLM 은 추가적인 텍스트 정보를 통해 예측 정확도를 높일 수 있으며, 이를 위해 시장 확률과 LLM 추론을 적절히 혼합하는 전략 (MixMCP) 이 가장 효과적입니다.
이 논문은 예측 시장과 LLM 의 결합을 위한 새로운 패러다임을 제시하며, 특히 금융 및 기업 정보 예측 분야에서 텍스트 기반 신호의 활용 가치를 입증했습니다.