Training with Pseudo-Code for Instruction Following

この論文は、自然言語の指示に疑似コード表現を付加してファインチューニングを行うことで、LLM の指示追従能力を大幅に向上させつつ、数学的および常識推論の性能も維持・改善できる手法を提案し、12 のベンチマークでその有効性を実証したものである。

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)に、より正確に指示を聞かせるための新しいトレーニング方法」**について書かれています。

一言で言うと、**「AI に『自然言語(普通の言葉)』で指示するのではなく、一度『擬似コード(プログラム風の簡易な手順書)』に変換させてから答えさせるように教える」**というアイデアです。

これを一般の方にもわかりやすく、いくつかのアナロジーを使って説明しましょう。


1. 問題:AI は「複雑な指示」に弱い

普段、私たちは AI に「この文章を要約して」「このメールを丁寧な口調で書き直して」といった指示を出します。しかし、指示が少し複雑になると、AI はうっかりルールを忘れたり、混乱したりすることがあります。

  • 例え話:
    料理のレシピを「美味しいパスタを作って」と言われたら、AI はパスタを作れます。でも、「パスタを作った後、ソースをかける前に、必ず卵を 3 個割り、塩を小さじ 1 杯入れ、最後に黒胡椒を振って、皿に盛る前に 5 分間休ませてください」といった**「複数の条件が絡んだ指示」**になると、AI は「あ、塩を入れ忘れた!」とか「休ませるのを忘れてしまった!」とミスをしてしまいます。

2. 解決策:AI の頭の中で「手順書」を書く

この論文の著者たちは、AI に指示を聞かせる際、**「一度、プログラムのような『擬似コード(Pseudo-code)』に変換させてから実行する」**というトレーニングを行いました。

  • アナロジー:建築家の設計図
    • 従来の方法(自然言語): 職人(AI)に「家を建てて。2 階建てで、窓は 3 つ、屋根は赤くして」と口頭で指示する。職人は「あ、窓が 4 つになっちゃった」とミスをするかもしれません。
    • 新しい方法(擬似コード): 職人に「まず、設計図(擬似コード)を書いてから建てて」と言います。
      • 設計図:
        1. 壁を作る
        2. 窓を 3 つ開ける(※ここ重要!)
        3. 屋根を赤く塗る
        4. 完成
      • 職人はこの**「設計図」を頭の中で確認しながら**作業を進めるので、窓の数を間違えたり、色を間違えたりしなくなります。

この「擬似コード」は、実際のプログラミング言語ではなく、**「もし〜なら、〜をする」「次に〜をする」**といった、論理的な手順を整理したものです。

3. 具体的なトレーニング方法:「生成・評価・修正」のループ

ただ「コードを書け」と言うだけでは、AI が間違ったコードを書く可能性があります。そこで、著者たちは以下のような**「自動で品質を高めるトレーニング」**を行いました。

  1. 生成(Generate): 強力な AI に「この指示を擬似コードに直して」と頼む。
  2. 評価(Evaluate): そのコードを使って実際に答えを出し、正しい答えと比べてみる。
  3. 修正(Repair): もし答えが違っていたら、「このコードは間違っているよ、直して」と AI に教えて、より良いコードに修正させる。

これを繰り返すことで、AI は**「指示を論理的な手順(コード)に変換する力」**を身につけ、最終的な答えも正確に出せるようになります。

4. 結果:AI はどう変わった?

この方法でトレーニングした AI は、以下のような劇的な変化を見せました。

  • 指示遵守力が向上: 複雑なルール(「文字数は 100 字以内で、句読点は使わないで、3 つの項目を箇条書きで」など)を守れるようになりました。
  • 他の能力も維持・向上: 「擬似コード」を学ぶことで、数学の問題や常識的な推理能力も落ちず、むしろ向上したケースもありました。
  • ユーザー体験は変わらない: 重要なのは、ユーザーは普段通り「普通の言葉」で指示を出せばいいということです。AI の内部で「あ、これはコードに直して考えよう」という処理が自動で行われるので、ユーザーは特別なことをする必要がありません。

5. まとめ:なぜこれがすごいのか?

これまでの AI は、指示を「言葉の羅列」として受け取っていましたが、この研究では**「指示を『論理的な手順』として再構築する」**という習慣を AI に植え付けました。

  • 従来の AI: 「指示を聞いて、直感で答える」→ 複雑な条件だとミスしやすい。
  • 新しい AI: 「指示を聞いて、まず『手順書』を書いて、それから答える」→ ミスが激減し、複雑なタスクも完璧にこなせる。

まるで、**「慌てて走り出す前に、一度立ち止まって地図を確認する」**ような効果があるのです。これにより、AI はより頼れるパートナーになり、私たちが複雑な指示を出しても、確実に実行してくれるようになるでしょう。