Debiasing LLMs by Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

🎬 한 줄 요약

"인공지능이 과거 데이터를 보고 미래를 예측할 때, **'최근에 좋았으니 앞으로도 계속 좋겠지!'**라고 너무 쉽게 생각하며 실수를 저지릅니다. 이 논문은 AI 의 머릿속 (매개변수) 을 직접 수정하는 **'수술'**을 통해, AI 가 더 합리적이고 현실적인 예측을 하도록 고쳤습니다."

1. 문제: AI 도 '사람 같은 버릇'이 있다? 🤔

우리는 보통 AI 가 사람보다 훨씬 똑똑하고 객관적일 거라고 생각합니다. 하지만 이 논문에 따르면, AI 도 사람처럼 **심리적 편향 (Bias)**을 가지고 있습니다.

비유: imagine(상상해 보세요) 어린아이가 있습니다.
- 어제 축구 경기에서 3 골을 넣었으니, 오늘도 무조건 3 골을 넣을 거라고 믿습니다.
- 하지만 실제로는 오늘 컨디션이 나빠서 0 골일 수도 있죠.
- 이 아이는 **'최근의 좋은 성적 (추세)'**만 보고 미래를 예측하는 '과도한 외삽 (Extrapolation)' 버릇이 있습니다.
현실: AI 도 주식 시장이나 경제 데이터를 볼 때, **"최근에 주가가 올랐으니 앞으로도 계속 오를 거야!"**라고 너무 쉽게 예측합니다. (실제로는 주가는 다시 떨어질 수도 있는데요.)

2. 왜 '명령 (프롬프트)'만으로는 안 될까? 🗣️

연구자들은 처음에 AI 에게 이렇게 말해봤습니다.

"너는 너무 감정적으로 생각하지 마. 차분하게, 논리적으로 예측해 봐."

하지만 소용없었습니다. (논문에서는 이를 '프롬프트 기반 접근법의 한계'라고 합니다.)

비유: 이 아이에게 "너는 더 성숙해져야 해!"라고 말로만 훈계하는 것과 같습니다.
- 아이의 **머릿속 (뇌 구조)**이 아직 그 정도로 성숙하지 않다면, 말만으로는 버릇이 고쳐지지 않습니다.
- AI 의 경우, 이 버릇은 AI 가 처음 배우는 단계 (사전 학습) 에서 수많은 뉴스와 보고서를 읽으며 자연스럽게 배워버린 것이기 때문에, 단순히 말로 지시하는 것만으로는 고칠 수 없습니다.

3. 해결책: AI 의 '머릿속'을 직접 고치기 (SFT + LoRA) 🛠️

연구자들은 AI 의 내부 구조를 직접 수정하는 방법을 썼습니다. 이를 **'지도 학습 파인튜닝 (SFT)'**이라고 합니다.

비유: 이제 아이에게 말로 훈계하는 게 아니라, 전문 코치와 함께 훈련을 시킵니다.
- 훈련 자료: "과거에 주가가 올랐을 때, 실제로는 다음에 떨어지는 경우가 많았어. 그래서 합리적인 예측은 '조금 떨어질 수도 있다'는 거야."라고 정답을 알려주는 데이터입니다.
- 방법 (LoRA): AI 전체를 다시 처음부터 배우게 하면 (Full Fine-tuning) 너무 비싸고, AI 가 다른 것도 다 잊어버릴 수 있습니다.
  - 그래서 연구자들은 LoRA라는 기술을 썼습니다.
  - LoRA 비유: AI 의 두뇌 전체를 교체하는 게 아니라, **특정 버릇을 고치기 위한 '작은 보조 장치 (패치)'**만 달아주는 것입니다.
  - 이 장치는 AI 의 일반적인 지능 (언어 이해 능력 등) 은 그대로 유지하면서, 오직 **'예측하는 방식'**만 합리적으로 바꾸어 줍니다.

4. 실험 결과: 버릇이 고쳐졌다! ✅

연구진은 두 가지 상황에서 이 방법을 테스트했습니다.

가상의 게임: 숫자 패턴을 보고 미래를 예측하는 게임.
- 결과: 고치기 전 AI 는 최근 패턴에 너무 민감하게 반응하다가, 고친 후는 "아, 이건 일시적인 현상이구나"라고 이해하며 훨씬 정확한 예측을 했습니다.
실제 주식 시장: S&P 500 종목의 다음 달 주가를 예측.
- 결과: 고치기 전 AI 는 "최근에 오른 주식은 계속 오를 거야"라고 예측했습니다.
- 고친 후 AI 는: "아, 최근 너무 오르면 다시 떨어지는 (역전) 경향이 있구나"라고 학습하여, 실제 시장 흐름과 더 잘 맞는 예측을 했습니다.

5. 왜 이 연구가 중요한가요? 💡

이 연구는 AI 가 금융이나 경제 결정을 내릴 때 신뢰할 수 있게 만드는 핵심 열쇠를 찾았습니다.

비유: 이제 **로보어드바이저 (자동 투자 비서)**를 고용한다고 칩시다.
- 버릇이 고쳐지지 않은 AI 비서라면, "최근에 주식 잘 오르네? 다 사자!"라고 충동적으로 투자하게 만들어 여러분을 손실로 이끌 수 있습니다.
- 하지만 이 논문의 방법으로 AI 의 버릇을 고친 AI 비서라면, "최근에 오르면 떨어질 수도 있으니 신중하게 접근하자"라고 현명한 조언을 해줄 것입니다.

🌟 결론

이 논문은 **"AI 가 인간처럼 실수하는 버릇을, 말로 고치는 게 아니라 AI 의 머릿속을 직접 수정 (수술) 해서 고칠 수 있다"**는 것을 증명했습니다. 이는 앞으로 AI 가 우리의 재산을 관리하거나 중요한 경제 결정을 내릴 때, 더 안전하고 합리적인 파트너가 될 수 있다는 희망을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 대규모 언어 모델 (LLM) 이 금융 데이터와 실험 데이터에서 **체계적인 외삽 편향 (extrapolation bias)**을 보인다는 점을 지적하고, 이를 해결하기 위해 **지도 미세 조정 (Supervised Fine-Tuning, SFT)**과 **저랭크 적응 (LoRA)**을 결합한 새로운 접근법을 제안합니다. 저자들은 프롬프트 기반의 개입만으로는 편향을 제거할 수 없으며, 모델의 파라미터 수준에서 직접적인 수정이 필요함을 입증했습니다.

1. 문제 제기 (Problem)

외삽 편향 (Extrapolation Bias): LLM 은 최근의 추세를 과도하게 반영하여 미래 값을 예측하는 경향이 있습니다. 이는 인간 투자자들이 보이는 행동 편향 (최근 성과에 대한 과잉 반응) 과 유사합니다.
프롬프트의 한계: 기존 연구 (Chen et al., 2024 등) 에 따르면, 모델에게 "합리적으로 추론하라"는 식의 프롬프트를 변경하거나 역할 부여 (Role-playing) 를 하더라도 편향이 제거되지 않습니다. 이는 편향이 모델의 입력 프롬프트 방식이 아닌, 프리트레이닝 (Pretraining) 과 정렬 (Alignment) 과정을 통해 모델의 파라미터에 내재화되었기 때문입니다.
필요성: 금융 의사결정에 LLM 기반 에이전트를 자율적으로 도입하려면 이러한 행동 편향을 제거하여 합리적 기준 (Rational Benchmark) 에 부합하도록 수정해야 합니다.

2. 방법론 (Methodology)

가. 기본 프레임워크: 지도 미세 조정 (SFT) + LoRA

개념: 모델의 파라미터 수준에서 편향을 교정하기 위해, 합리적 기준 (Rational Benchmark) 또는 실현된 미래 수익률 (Realized Returns) 을 정답으로 하는 지시 데이터셋 (Instruction Dataset) 으로 모델을 재학습시킵니다.
LoRA (Low-Rank Adaptation) 적용:
- 320 억 개의 파라미터를 가진 Qwen3-32B 모델을 사용합니다. 전체 파라미터를 업데이트하는 것은 계산 비용이 너무 크고, 기존 언어 이해 능력을 잃을 위험 (Catastrophic Forgetting) 이 있습니다.
- 따라서 원본 가중치는 고정하고, 각 레이어에 작은 저랭크 행렬 (A, B) 만 추가하여 학습합니다. 이는 계산 비용을 획기적으로 줄이면서도 특정 예측 태도만 선택적으로 수정할 수 있게 합니다.
- 학습 후 추가된 파라미터를 원본 가중치에 병합하여 추론 시 추가 오버헤드가 없도록 합니다.

나. 데이터 구성 및 학습 절차

편향 식별 (Bias Identification): 테스트 세트를 사용하여 기존 LLM 의 예측을 수집하고, 합리적 기준과 비교하여 편향의 방향과 심각성을 진단합니다.
지시 데이터셋 (Instructional Dataset) 구축:
- 입력 (Prompt): 과거 수익률 시계열 데이터.
- 정답 (Target): 합리적 기대 모델 (Conditional Expectations) 이나 실제 실현된 미래 수익률.
- 목적: 모델이 최근 추세를 과대평가하는 대신, 평균 회귀 (Mean Reversion) 나 합리적 예측을 하도록 학습시킵니다.
학습 및 검증: 훈련 데이터로 LoRA 를 통해 미세 조정을 수행하고, 검증 데이터 (Validation Set) 를 통해 과적합을 방지하며 조기 종료 (Early Stopping) 를 적용합니다.
외부 표본 평가 (Out-of-Sample Evaluation): 학습에 사용되지 않은 완전히 새로운 테스트 세트를 통해 편향 제거 효과를 검증합니다.

3. 주요 실험 및 결과 (Results)

실험 1: 통제된 예측 실험 (Controlled Forecasting Experiments)

설계: Afrouzi et al. (2023) 의 인간 실험을 LLM 으로 재현했습니다. 다양한 자기회귀 (AR(1)) 프로세스 ( $\rho \in \{0.0, \dots, 1.0\}$ ) 에서 40 회에 걸친 예측을 수행하도록 했습니다.
기저 모델 (Baseline) 결과: LLM 은 인간과 마찬가지로 최근 정보에 과잉 반응 (Overreaction) 했습니다. 예측 수정 (Forecast Revision) 과 예측 오차 간 회귀 계수 ( $b$ ) 가 모든 조건에서 통계적으로 유의미하게 음수였습니다 (예: $\rho=0.0$ 일 때 $b = -0.456$ ).
미세 조정 후 결과: 합리적 기대치를 목표로 미세 조정 후, 과잉 반응 계수는 통계적으로 유의하지 않은 수준으로 감소했습니다 ( $b$ 가 -0.073 에서 -0.027 사이로 축소). 이는 편향이 학습 가능한 패턴임을 보여줍니다.

실험 2: 주식 수익률 예측 (Stock Return Prediction)

설계: S&P 500 구성 종목의 월간 수익률을 예측하는 과제입니다. Da, Huang, Jin (2021) 과 Chen et al. (2024) 의 실험을 기반으로 합니다.
기저 모델 결과: LLM 은 최근 12 개월 수익률에 과도하게 의존하여 예측했습니다. 가장 최근 달 수익률의 계수가 0.394 로 양수이며 통계적으로 유의했습니다.
미세 조정 후 결과: 실제 실현된 수익률 (Realized Returns) 로 학습시킨 후, 계수는 **부정적인 값 (-0.120)**으로 반전되었습니다. 이는 모델이 학습 데이터를 통해 "최근 상승한 주식은 이후 반등할 가능성이 높다 (약한 평균 회귀)"는 패턴을 내재화했음을 의미합니다.
결론: 두 실험 모두에서 미세 조정은 **외부 표본 (Out-of-Sample)**에서도 편향을 성공적으로 제거했습니다.

4. 주요 기여 (Key Contributions)

편향의 근원 규명: LLM 의 외삽 편향이 프롬프트의 문제가 아니라 모델 파라미터에 인코딩된 학습된 패턴임을 입증했습니다.
효과적인 해결책 제안: 프롬프트 엔지니어링이 아닌, **파라미터 수준의 개입 (SFT + LoRA)**을 통해 편향을 저비용으로 제거할 수 있음을 보였습니다.
일반화 가능성: 통제된 실험 환경과 실제 주식 시장 데이터 모두에서 효과가 입증되어, 다양한 경제/금융 시나리오에 적용 가능한 범용적인 방법론을 제시했습니다.
실용성: 오픈 가중치 (Open-weight) 모델을 사용하여 수백 달러의 비용으로 수백만 달러의 프리트레이닝 비용 없이도 편향 제거가 가능함을 보여주었습니다.

5. 의의 및 시사점 (Significance)

책임 있는 AI 배포: 금융 의사결정에 LLM 기반 에이전트 (로보어드바이저 등) 를 도입할 때, 모델이 인간의 행동 편향을 재생산하여 투자자에게 해를 끼치는 것을 방지할 수 있는 필수적인 기술적 토대를 제공합니다.
신뢰성 확보: 편향이 제거된 LLM 은 신용 리스크 평가, 거시경제 예측, 알고리즘 트레이딩 등 다양한 분야에서 더 신뢰할 수 있는 예측 신호를 제공할 수 있습니다.
미래 방향: 이 연구는 LLM 이 단순한 텍스트 생성기를 넘어, 합리적 기준에 부합하는 경제적 에이전트로 진화하기 위한 중요한 단계로 평가됩니다.

요약: 이 논문은 LLM 의 예측 편향이 모델 내부에 깊이 박혀 있어 프롬프트로는 고칠 수 없으며, LoRA 를 활용한 효율적인 미세 조정을 통해 합리적 기준에 맞춰 편향을 제거할 수 있음을 실증적으로 증명했습니다. 이는 금융 AI 의 신뢰성과 실용성을 높이는 핵심적인 방법론입니다.