Each language version is independently generated for its own context, not a direct translation.
この論文は、**「ニュースの感情(ポジティブかネガティブか)を AI に読ませることで、株価が上がるか下がるかをより正確に予測できるか?」**という問いに答える研究です。
まるで**「天気予報」をするようなものだと想像してみてください。
株価の動きを予測する従来の方法は、過去の気温(株価データ)だけを見て「明日は晴れかな?」と予想していました。しかし、この研究では「空の雲の色や風の匂い(ニュース記事の感情)」**も一緒に見て、より精度の高い予報をしようとしています。
以下に、この研究のポイントをわかりやすく解説します。
1. 3 人の「天気予報士」を比べる
研究チームは、ニュース記事の感情を分析する AI(大規模言語モデル)として、3 人の異なる「予報士」を用意しました。
- FinBERT(金融の専門家): 金融用語に特化したプロ。
- RoBERTa(一般のベテラン): 幅広い知識を持つ一般の専門家。
- DeBERTa(最新の天才): 文脈を深く理解できる最新のモデル。
結果:
驚いたことに、金融に特化した「FinBERT」ではなく、最新の「DeBERTa」が最も正確にニュースの感情を読み取れました(正解率 75%)。
さらに面白いのは、この 3 人が「同じニュース」を同じように判断するわけではないこと。あるニュースは A が「良い」と言い、B が「悪い」と言うこともあります。
2. 「3 人のチーム」を作ると最強になる
それぞれの予報士は得意分野が違います。そこで、研究チームは**「3 人の意見をまとめて、最終判断を下すチーム(アンサンブルモデル)」**を作ってみました。
- 結果: 1 人で判断するよりも、3 人の意見を集約したチームの方が、正解率が 80% までアップしました。
- たとえ話: 1 人の天気予報士が「晴れ」と言っても、他の 2 人が「雨」と言っていれば、慎重に「傘を持っていったほうが良い」と判断できるようなものです。
3. ニュースの感情を「株価予測のレシピ」に混ぜる
次に、この「感情分析の結果」を、株価そのものを予測する AI(時系列モデル)に混ぜてみました。
株価予測 AI は、大きく分けて 4 種類の「料理人(アーキテクチャ)」がいます。
- LSTM(昔ながらの職人): 過去のデータの流れをコツコツ追う。
- PatchTST & TimesNet(最新の天才シェフ): 複雑なパターンを瞬時に捉える。
- tPatchGNN(ネットワークの達人): 複数の銘柄の関係を同時に考える。
実験の結果:
- 最新のシェフ(PatchTST と TimesNet)は、ニュースの感情を混ぜることで、劇的に美味しくなりました(予測精度が向上)。
- たとえ話: 彼らは「過去の気温データ」だけでなく、「今日の雲の色(ニュース)」を知ることで、より正確な天気予報ができるようになりました。
- 昔ながらの職人(LSTM)やネットワークの達人(tPatchGNN)は、少しだけ美味しくなりましたが、劇的な変化はありませんでした。
- 彼らはもともと過去のデータの流れだけで十分上手に予測できていたため、ニュースの情報は「少しの助け」程度で済みました。
4. 結論:何が一番大事だったのか?
この研究からわかったことは以下の通りです。
- ニュースの感情は役に立つ: 株価の動きを予測する際、ニュースの「良い・悪い」の感情を AI に読み込ませることは、特に最新の AI モデルにとって有効です。
- 1 人の天才より、チームワーク: 1 つの AI モデルに頼るよりも、複数の異なる AI モデルの意見を組み合わせる(アンサンブル)方が、ニュースの感情分析においては圧倒的に正確です。
- 万能薬ではない: ニュースの感情がすべての予測モデルを劇的に良くするわけではありません。モデルの「性格(アーキテクチャ)」によって、ニュースの情報の受け止め方は異なります。
まとめ
この論文は、**「AI にニュースを読ませて、複数の AI の意見をまとめ、最新の予測モデルと組み合わせる」**という新しいアプローチが、株価予測において有効であることを示しました。
投資の世界では「ニュースが株価を動かす」と言われますが、この研究は**「どのニュースを、どの AI に、どう読み込ませれば、最も賢く投資判断ができるか」**という具体的なレシピを提案したのです。
Each language version is independently generated for its own context, not a direct translation.
論文タイトル: LLM によるニュース感情分析が株価変動予測に与える影響
受理: ICLR 2026 Workshop on Advances in Financial AI (AFA)
著者: Walid Siala, Ahmed Khanfir, Mike Papadakis (University of Luxembourg, ENSI)
1. 研究の背景と課題 (Problem)
株価予測は投資戦略やリスク管理において重要ですが、経済、技術、政治的要因による市場の激しい変動により極めて困難です。近年、ニュースの感情分析(センチメント分析)が株価変動と相関があることが示唆されていますが、以下の課題が存在します。
- モデルの比較不足: 既存の研究は、特定の LLM(大規模言語モデル)の提案や評価に偏っており、同一の金融データセット上で複数の LLM を比較する包括的な研究が不足している。
- 表現方法の検討不足: 感情出力を確率スコア、離散ラベルなど異なる形式でエンコードし、それを日次集約する方法を包括的に評価した研究がない。
- 融合手法の未探索: 感情分析の出力と時系列株価データを融合させる手法、特にパッチベースのトランスフォーマー(PatchTST)や時系列グラフニューラルネットワーク(tPatchGNN)などの最先端アーキテクチャとの組み合わせが十分に探求されていない。
2. 提案手法と実験設計 (Methodology)
本研究は、異なる LLM ベースの感情分析アプローチを評価し、それを多様な時系列予測モデルと統合する包括的な評価研究です。
A. 感情分析モデル (Sentiment Analysis Models)
- 対象モデル: 3 つの Transformer ベースモデルを比較・評価。
- FinBERT: 金融コーパスで微調整された BERT 派生モデル。
- RoBERTa: 汎用最適化された BERT 派生モデル。
- DeBERTa: 汎用最適化された BERT 派生モデル。
- アンサンブルモデル: 上記 3 モデルの出力を基に、ランダムフォレスト (RF)、ロジスティック回帰 (LR)、サポートベクターマシン (SVM) を用いて学習させた 3 つのアンサンブルモデル。
- 特徴: 生成モデルではなく決定論的なモデルを使用し、ハルシネーション(幻覚)を抑制し、再現性を確保。
B. 株価予測モデル (Stock Prediction Methods)
4 つの異なるアーキテクチャファミリーを用いた時系列予測モデルを評価対象としました。
- LSTM: 時系列モデリングのベースライン。
- PatchTST: マルチ変量時系列分析に最適化されたトランスフォーマー(パッチング機構を使用)。
- TimesNet: 2 次元空間での時系列変動モデリングを行うトランスフォーマー。
- tPatchGNN: 時系列パッチングとグラフニューラルネットワークを統合し、資産間の関係性を捉えるモデル。
C. データセットと特徴量
- 対象銘柄: Microsoft (MSFT), Amazon (AMZN), Apple (AAPL), Netflix (NFLX), Tesla (TSLA)。
- 期間: 2022 年 3 月 10 日〜2025 年 4 月 2 日(約 96,000 件のニュースを含む)。
- 感情特徴量の集約: 1 日あたりの複数のニュースを以下の指標に集約。
- 感情スコアの合計(強度)、最小・最大値(極端なシグナル)、多数決クラス(優勢な感情)。
- 予測タスク:
- 分類タスク: 翌日の株価上昇/下落(バイナリ)。
- 回帰タスク: 翌日の価格変動率(ファクター)。
D. 実験設定
- データは時系列順に分割(訓練 70%、検証 10%、テスト 20%)し、リークや先見の偏りを防止。
- 30 日間のローリングウィンドウを使用。
- 各モデルを異なるランダムシードで 10 回実行し、平均値と標準偏差を算出。
3. 主要な結果 (Key Results)
A. 感情分析モデルの性能と相補性
- 単一モデル性能: DeBERTa が最も高精度(約 75%)で、FinBERT(約 70.9%)、RoBERTa(約 58.9%)を上回った。
- アンサンブル効果: 3 モデルの出力を SVM で結合したアンサンブルモデルは、約 80% の精度を達成し、単一モデルを凌駕した。Venn 図分析により、各モデルが異なるニュースを正しく予測しており、相補性が高いことが確認された。
B. 株価分類タスク(上昇/下落予測)への影響
- 全体傾向: 感情特徴量の追加は、すべてのモデルで劇的な向上をもたらすわけではないが、LSTM、PatchTST、tPatchGNN ベースの分類器において、精度(F1 スコア)と AUC がわずかに改善された。
- モデル別:
- LSTM: FinBERT 由来の感情特徴量で AUC が 0.562(ベースライン 0.545 対比)に向上。
- TimesNet: DeBERTa 由来の感情特徴量で AUC が 0.533 に向上。
- PatchTST / tPatchGNN: 感情特徴量の追加により、SVM などのアンサンブル手法を用いた場合、F1 スコアが改善。
- 集約方法: 感情スコアの「合計(sum)」と「カウント(count)」特徴量が分類精度に重要であり、これらを除去すると性能が低下した。
C. 株価回帰タスク(価格変動予測)への影響
- PatchTST と TimesNet: 感情情報の統合により、大幅な性能向上が見られた。
- PatchTST: 感情モデル導入により MAE が 0.140〜0.186 減少、RSE が 1.537〜2.149 減少。
- TimesNet: 最も顕著な改善。MAE が 0.146〜0.229 減少、RSE が 2.067〜2.779 減少(RoBERTa 由来の感情特徴量で最大改善)。
- LSTM と tPatchGNN: 感情情報の追加による影響は最小限であり、むしろ感情なし(No Sentiment)のベースラインの方が誤差が小さいケースもあった。
4. 貢献と意義 (Contributions & Significance)
- 包括的な比較評価: 金融分野における LLM ベースの感情分析モデル(DeBERTa, RoBERTa, FinBERT)を同一データセットで比較し、DeBERTa の優位性とアンサンブル手法(SVM 結合)による 80% 精度の達成を実証した。
- アーキテクチャごとの適応性の解明: 感情分析情報が株価予測に与える影響は、使用する予測モデルのアーキテクチャに依存することを明らかにした。
- Transformer 系(PatchTST, TimesNet): 感情特徴量との相性が非常に良く、回帰タスクで大幅な精度向上が見られる。
- RNN/グラフ系(LSTM, tPatchGNN): 分類タスクではわずかな改善があるが、回帰タスクでは限定的。
- 実用的な知見: 単に「感情分析を組み合わせれば良い」ではなく、**「どの予測モデルとどの感情特徴量(集約方法)を組み合わせるか」**が重要であることを示した。特に、PatchTST や TimesNet といった最先端時系列モデルと、DeBERTa/アンサンブル感情モデルの組み合わせが、回帰予測において最も効果的である。
結論
本研究は、LLM ベースのニュース感情分析が株価予測に有効であることを示しつつ、その効果は予測モデルのアーキテクチャに強く依存することを明らかにしました。特に、PatchTST や TimesNet などのトランスフォーマー系モデルと、DeBERTa や SVM アンサンブルを組み合わせたアプローチが、株価変動の方向性(分類)および変動幅(回帰)の予測において最も高い精度を発揮することが示されました。