Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整(RFT)が教師あり微調整(SFT)に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。

Zhihao Zhang, Qiaole Dong, Qi Zhang, Jun Zhao, Enyu Zhou, Zhiheng Xi, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Mingqi Wu, Yanwei Fu, Tao Ji, Tao Gui, Xuanjing Huang, Kai Chen

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧩 物語の舞台:AI と「ジグソーパズル」

まず、この研究では AI に**「ジグソーパズル」という新しいゲームをやらせました。
画像を 9 つに切り取り、バラバラにして並べ替えるゲームです。
最新の AI でも、このゲームは
「初見」**で、全く解けません(ランダムに並べるのと変わらないレベルです)。

ここで、AI にこのパズルを解く方法を教えるために、2 つの異なる学習方法を実験しました。

  1. SFT(教師あり学習):
    • 方法: 人間が「正解の答え」をそのまま教えてあげる方法。
    • イメージ: 先生が「答えはこれ!」と黒板に書いて、生徒に「これを暗記しなさい」と言う感じ。
  2. RFT(強化学習):
    • 方法: AI 自身に試行錯誤させ、正解したら「おめでとう(報酬)」、間違ったら「残念(報酬なし)」とフィードバックする方法。
    • イメージ: 先生が「自分で考えて解いてごらん。解けたらご褒美!」と言う感じ。AI は何度も失敗しながら、自分で正解の道筋を見つけ出します。

📉 驚きの結果:「速さ」と「記憶」のトレードオフ

実験の結果、面白いことがわかりました。

  • SFT(暗記学習):

    • メリット: パズルを超高速でマスターします。数回教えるだけで完璧に解けるようになります。
    • デメリット: 大惨事(忘却)が起きます。パズルを解けるようになった瞬間、AI は「以前できていたこと(例えば、写真の中の人物を指差したり、文章を読んだりする能力)」を完全に忘れてしまいました。
    • 原因: 無理やり新しい答えを「暗記」させすぎたため、脳の記憶領域が新しい情報で上書きされ、古いデータが吹き飛んでしまったのです。
  • RFT(試行錯誤学習):

    • メリット: パズルをマスターするのに時間がかかります(何万回も試行錯誤が必要)。
    • デメリット: ほぼありません。
    • 結果: パズルを解けるようになった後も、「以前できていた他の能力」をほとんど失わずに維持できました。

「なぜ、RFT は古い記憶を消さずに済むのか?」 これがこの論文の核心です。


🔍 正体は「データの性質」だった!

研究チームは、この現象を**「学習のダイナミクス(動き)」**という視点から分析しました。ここが最も面白い部分です。

1. 無理やり押し付けるか、自然に受け入れるか

  • SFT の問題点:
    人間が作った「正解データ」は、AI の頭の中(既存の知識)とはあまりにも遠い場所にありました。

    • 例え: 普段「日本語」しか話さない人に、いきなり「宇宙語」の正解を暗記させようとするようなものです。脳が混乱し、既存の「日本語」の記憶まで壊してしまいました。
    • 結果: 古い知識と新しい知識が激しく衝突し、古い知識が吹き飛ぶ(忘却)のです。
  • RFT の秘密:
    RFT は、AI 自身が「試行錯誤」して見つけた正解を使います。

    • 例え: AI は「宇宙語」をいきなり覚えるのではなく、**「自分の持っている日本語の知識の延長線上」**で、少しずつ新しい言葉を見つけ出しました。
    • 結果: 新しい知識が、古い知識と**「馴染みやすい場所」**に定着したため、古い記憶を壊さずに済んだのです。

2. 「低確率の領域」vs「高確率の領域」

論文では、AI が「どれくらい確信を持って答えを出しているか(Perplexity:混乱度)」を測りました。

  • SFT(人間が作ったデータ): AI にとって**「意外すぎる答え」**でした。AI は「えっ、そうなの?」という状態なので、学習すると脳がパニックになり、他の記憶を消してしまいました。
  • RFT(AI が見つけたデータ): AI にとって**「なんとなく合っていそうな答え」**でした。AI は「あ、これならありそう」という感覚で学習できたため、脳への負担が少なく、既存の記憶を守れたのです。

💡 結論:「教え方」ではなく「教材」が重要

この研究が示した最大の教訓は以下の通りです。

「AI に新しいことを教える際、重要なのは『アルゴリズム(学習方法)』そのものではなく、『どんな教材(データ)』を使うか」

  • SFT で RFT の成果を再現できた:
    研究チームは、RFT で AI が「自分で見つけた正解(試行錯誤の結果)」を、SFT の教材として使ってみました。
    • 結果: SFT でも、RFT 並みに「古い記憶を守りながら」新しいパズルを解けるようになりました!

つまり、**「AI 自身が試行錯誤して見つけた、自然な答え(低混乱度のデータ)」**を教材にすれば、SFT という速い学習方法でも、記憶を失わずに済むことがわかりました。

🌟 まとめ

  • **SFT(暗記)は速いけど、「無理やり押し付ける」**ので、古い記憶を壊しやすい。
  • **RFT(試行錯誤)は遅いけど、「自然な流れ」**で学ぶので、古い記憶を守れる。
  • 解決策: RFT で AI に「自分で考えさせた答え」を教材として SFT に使えば、「速さ」と「記憶の保持」の両方を手に入れることができる。

これは、AI 開発の未来において、**「どう教えるか(アルゴリズム)」よりも「何を教えるか(データの選び方)」**が重要であることを示す、非常に重要な発見です。