Continuous Chain of Thought Enables Parallel Exploration and Reasoning

この論文は、離散トークンの代わりに連続値トークンを用いた連鎖推論(CoT2)を提案し、理論的な保証と新しい教師あり学習・方策最適化手法を通じて並列探索を可能にし、論理推論タスクにおける推論効率と性能の向上を実証しています。

Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能(AI)の「思考の仕方」を根本から変える新しいアイデアを提案しています。タイトルは『連続的な思考連鎖(CoT2)は並列探索と推論を可能にする』というものです。

少し難しい専門用語を、身近な例え話を使って解説します。

1. 従来の AI の思考:「迷路を一人で行く探検家」

これまでの AI(言語モデル)は、思考するときに**「離散的(ディスクリート)」な方法をとっていました。
これを
「迷路探検」**に例えてみましょう。

  • 従来の AI: 迷路の分かれ道に立つと、AI は「右に行くか、左に行くか」を一つだけ選びます。
    • 「あ、右は壁だ」と気づくまで、一度右を選んで進まなければなりません。
    • もし間違っていたら、最初からやり直して「じゃあ左に行こう」と考え直します。
    • 問題点: 一度決めた道は戻れず、間違った道を進んでしまう「雪だるま式」の失敗が起きやすいです。また、すべての可能性を調べるには、何度も迷路を歩き回る(計算コストがかかる)必要があります。

2. 新しい AI の思考:「すべての道を行く魔法の羅針盤」

この論文が提案する**「CoT2(連続トークンによる思考連鎖)」は、この仕組みを「連続的(コンティニュアス)」**に変えます。

  • CoT2 の AI: 分かれ道に立つと、**「右にも左にも、同時に少しだけ進む」**ことができます。
    • 具体的には、AI は「右に 30%、左に 70%」のように、**複数の可能性を混ぜ合わせた「魔法の羅針盤」**のような状態を作ります。
    • これは、**「すべての可能性を同時に並行して探索している」**ようなものです。
    • 迷路の例で言えば、一人の探検家が分身して、すべての道を同時に歩き、最後に「一番良い道」に収束させるイメージです。

3. この技術のすごいところ(3 つのポイント)

① 並列探索(パラレル・エクスプロレーション)

  • 比喩: 従来の AI が「一人の探検家」なら、CoT2 は**「分身した探検家チーム」**です。
  • 効果: 一度の計算で、複数の解決策を同時に検討できます。そのため、複雑なパズルや数学の問題を解くとき、従来の AI が何度も試行錯誤するのに対し、CoT2 は**「一発で正解に近づける」**ことができます。

② 情報量のアップ(エンベディング次元の活用)

  • 比喩: 従来の AI は、思考のステップごとに「手紙(トークン)」を一つだけ送ります。手紙には限られた文字しか書けません。
  • CoT2 の場合: 思考のステップごとに、**「複数の手紙を束ねた大きな箱」**を送ります。
  • 効果: 一度に多くの情報を詰め込めるため、より複雑な計算や論理展開を、少ないステップで済ませられます。論文では、これを「情報のパッキング」と呼んでいます。

③ 正解への収束(最終的な決断)

  • 比喩: 最初は「すべての道を行く」魔法の羅針盤を使いますが、最終的な答えを出す瞬間だけ、「最も確実な道」にピタリと決まります。
  • 効果: 途中では柔軟に多くの可能性を探りながら、最後は確実な答えを出力します。これにより、途中での失敗が蓄積するのを防ぎます。

4. 実験結果:実際にどう役立つか?

研究者たちは、この新しい方法をテストしました。

  • 数学パズル(MNNS): 数字の組み合わせで、最小の「0 以上の和」を見つける難しい問題です。
    • 従来の AI は、何度も試してやっと正解にたどり着くのに、CoT2 は**「一度の試行で高い正解率」**を達成しました。
    • 従来の AI が 10 回試行してやっと得られる精度を、CoT2 は 1 回で出せてしまうのです。
  • 論理パズル(ProntoQA): 「A は B であり、B は C である。では A は C か?」のような論理問題です。
    • これも、CoT2 の方が圧倒的に速く、正確に解けました。

5. まとめ:なぜこれが重要なのか?

これまでの AI は、**「一つずつ順番に考える」という制約に縛られていました。しかし、この論文は「複数の可能性を同時に混ぜ合わせて考え、最後に決断する」**という新しい思考法を証明しました。

  • 従来の AI: 慎重だが、一度間違えると巻き戻しが大変。
  • 新しい AI(CoT2): 冒険的で、同時に多くの道を探るが、最終的に賢く決断する。

これは、AI がより複雑な問題(高度な数学、複雑な論理推理、創造的な計画など)を、人間のように「頭の中でシミュレーション」しながら解けるようになるための重要な一歩です。まるで、AI が「思考の速度」と「思考の幅」を同時に手に入れたようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →