Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）をより安全にするための新しい方法」**について書かれた研究です。

一言で言うと、**「AI が『悪いこと』を言ってしまうとき、それは AI の『新しい学習』のせいではなく、元々の『古い記憶（ベースモデル）』のせいである」**という発見をし、その性質を利用して、AI が安全な回答を選ぶ仕組みを作ったという話です。

以下に、難しい専門用語を使わず、日常の例え話を使って解説します。

1. 背景：AI の「お勉強」には落とし穴がある

まず、現在の AI は「拒絶トレーニング（Refusal Training）」という方法で安全になっています。これは、AI に「悪い質問には『できません』と答えなさい」と教えることです。

しかし、最近の研究では、この教え方が**「表面的（シャロー）」**であることが分かりました。AI は「『できません』と答えなさい」というルールを暗記しているだけで、本当に「なぜダメなのか」を理解していないのです。そのため、少しひねった質問（ジャイルブレイク）をすると、ルールを破って危険な回答をしてしまいます。

これを解決するために、「ディリベラティブ・アライメント（Deliberative Alignment）」という新しい方法が生まれました。
これは、「賢くて安全な先生（教師モデル）」が考えるプロセス（思考の道筋）を、生徒（学生モデル）に教えるというものです。

イメージ： 優秀な先生が「この問題は危険だから、こう考えて拒否しよう」という思考プロセスをノートに書き、それを生徒に写させて勉強させるようなものです。

2. 問題点：生徒は「先生」になれなかった

この研究チームは、この「先生から生徒への学習」を詳しく調べました。すると、驚くべき事実が発見されました。

発見 1：先生と生徒の間に「ギャップ」がある
いくら優秀な先生の思考プロセスを教えたとしても、生徒モデルは完全に先生のようにはなりません。特に、生徒モデルのサイズが小さかったり、先生と生徒の組み合わせが合わなかったりすると、安全な判断ができなくなります。
- 例え話： 天才ピアニストの先生が、指の動きや考え方を教えても、生徒がまだ初心者なら、同じように完璧に弾くことはできません。
発見 2：生徒は「悪い癖」を隠し持っている
最も重要な発見です。生徒モデルは、先生から「安全な思考」を学んだつもりでも、「悪い回答」をしてしまうとき、それは実は「新しい学習」の結果ではなく、AI が元々持っていた「古い記憶（ベースモデル）」の癖がよみがえっていることが分かりました。
- 例え話： 生徒が「危険なことを言わない」という新しいルールを勉強していても、ふとした瞬間に「昔から持っていた悪い癖（ベースモデルの性質）」が出てきて、危険なことを言ってしまうのです。

3. 解決策：AI の「心」を覗いて、悪い方を消す

この「悪い回答は、AI の古い記憶（ベースモデル）由来だ」という発見をヒントに、研究チームは新しい安全装置を開発しました。

「BoN（Best-of-N）サンプリング」という方法です。

仕組み：
AI に質問をすると、AI は一度に 1 つの答えを出すのではなく、「8 つの答え」を同時に考えます。
その 8 つの答えの中から、**「最も安全な答え」**を選びます。
どうやって選ぶの？（ここがすごい）
従来の方法では、「どれが安全か」を判断するのが難しかったです。でも、この研究では**「AI の心の奥（潜在空間）」**を覗いて判断します。
1. 8 つの答えを AI に作らせます。
2. それぞれの答えが、「AI の古い記憶（ベースモデル）」とどれだけ似ているかを測ります。
3. 「古い記憶（ベースモデル）」と似ている答え ＝「悪い癖が出ている危険な答え」と判断します。
4. 逆に、「古い記憶」とは違う（新しい学習に基づいている）答え ＝「安全な答え」と判断します。
5. 結果、「古い記憶に近い（危険な）答え」を捨てて、「新しい学習に近い（安全な）答え」を採用します。
例え話：
AI が 8 つの回答を考えたとします。
「古い記憶（ベースモデル）」は、**「危険な悪魔」のようなものです。
AI が作った 8 つの回答を並べて、「どれが悪魔（古い記憶）に一番似ているか？」をチェックします。
「あ、この回答は悪魔の匂いがする！これは危険だ！」と見抜いて捨て、「悪魔の匂いがしない（安全な）回答」**だけを選んでユーザーに渡すのです。

4. 結果：安全になりつつ、賢さも保たれた

この方法を実際に試した結果、以下の素晴らしい成果がありました。

安全性が劇的に向上： 危険な質問に対する回答成功率（攻撃成功率）が、平均して約 30% 減少しました。
賢さは維持： 安全になる一方で、AI の一般的な能力（数学や一般教養など）はほとんど失われませんでした。
強靭性： 攻撃者がさらに巧妙な手口（適応型攻撃）を使っても、この安全装置は効果を発揮しました。

まとめ

この論文は、**「AI が安全になるためには、単にルールを教えるだけでなく、AI の『心の奥（ベースモデル）』から悪い癖を排除する必要がある」**と教えてくれました。

そして、**「AI が 8 つの答えを考えさせたとき、その中から『古い悪い癖』に近いものを排除して、一番安全な答えを選ぶ」**という、シンプルながら非常に効果的な方法を見つけたのです。

これは、AI をより信頼できるパートナーにするための、重要な一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Deliberative Alignment は深いが、不確実性は残る

（原題：Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model）

この論文は、大規模言語モデル（LLM）の安全性を高めるための「審議的アライメント（Deliberative Alignment）」という手法における課題を特定し、推論時（Inference time）にモデルの安全性を向上させる新しい手法を提案するものです。

1. 背景と問題提起

近年、LLM の安全性向上には「拒絶トレーニング（Refusal Training）」や「推論能力の注入（Reasoning Capabilities Distillation）」といった手法が用いられています。特に、強力な推論モデル（Teacher）から安全な思考プロセス（Chain-of-Thought, CoT）を学習させ、非推論モデル（Student）に転移させる「審議的アライメント」は、従来の浅い拒絶学習よりも深い安全性をもたらすと期待されています。

しかし、本研究は以下の重要な課題を指摘しています。

アライメントギャップ（Alignment Gap）: 教師モデルと学生モデルの間には、モデルサイズや能力の差に関わらず、安全性と汎用性（Utility）の面でギャップが存在します。強力な教師モデルであっても、特定の学生モデルに対しては効果的なアライメントがなされないことがあります。
ベースモデル由来の不安定性: 審議的アライメントを経た学生モデルは、推論パターンを学習しているにもかかわらず、依然として「ベースモデル（学習前の元モデル）」の性質を引き継ぎ、 unsafe な挙動を示すことがあります。これは、モデルが推論能力を習得しても、安全性に関する「不確実性」がベースモデルの事前分布に起因していることを示唆しています。
既存メトリックの限界: 安全性を判定するために従来の「Perplexity（困惑度）」や「Self-certainty（自己確信度）」を用いても、安全な回答と unsafe な回答を明確に区別することは困難です。

2. 提案手法：潜在空間に基づく BoN サンプリング

本研究では、推論時に unsafe な応答をフィルタリングし、安全性を向上させるための新しい Best-of-N (BoN) サンプリング手法を提案します。

核心的な仮説: 学生モデルが生成した unsafe な応答は、その潜在表現（Latent Representation）が学習後のモデル（Distilled Model）ではなく、元のベースモデル（Base Model）の分布に近接しているという事実に基づいています。
手法の詳細:
1. 複数の候補応答（N 個）を生成します。
2. 各応答の最終トークンの潜在埋め込み（Latent Embedding）を取得します。
3. 潜在類似性（Latent Similarity） を計算します。これは、生成された応答の最終トークンの埋め込みと、対応するベースモデルの最終トークンの埋め込みとのコサイン類似度を測定するものです。
4. 選択基準: 類似度が高い（＝ベースモデルの分布に近い）応答は unsafe である可能性が高いため、それを除外し、類似度が低い（＝安全にアライメントされた分布に近い）応答を選択します。
- 数式で表すと、 $r^* = \arg\min_{r_i \in r} [\mathcal{L}_{sim}(\mathcal{G}_{FT}, \mathcal{G}_{base}, r)]$ となります。

この手法は、外部の報酬モデルを必要とせず、推論時のみで実装可能な点が特徴です。

3. 主要な貢献

アライメントギャップの実証: 7 つの教師モデルと 6 つの学生モデルを用いた大規模な実験により、教師モデルの能力が向上しても、学生モデルへの安全性転移が必ずしも比例しない「アライメントギャップ」が存在することを示しました。また、小規模な教師モデルから学習させた場合、学生モデルの汎用性が大きく低下することも示しました。
安全性不確実性の帰属: 学生モデルの unsafe な挙動が、推論学習の結果ではなく、ベースモデルの事前分布に起因する「不確実性」であることを実証しました。
新しい BoN サンプリング手法の提案: 潜在空間の類似性を用いた BoN サンプリングにより、追加のトレーニングなしに安全性を大幅に向上させる手法を提案しました。

4. 実験結果

DAN、WildJailbreak、StrongREJECT の 3 つの主要な安全性ベンチマークにおいて、以下の結果が得られました。

SFT（教師あり微調整）段階:
- 攻撃成功率（ASR）の平均減少率：DAN で 28.2%、WildJailbreak で 31.3%、StrongREJECT で 35.4%。
- 汎用性（MMLU, GSM8K）への影響は最小限に抑えられました。
RL（強化学習）段階（GRPO 後）:
- 安全性の向上効果は RL 学習後も維持されました。ASR の平均減少率は、DAN で 21.9%、WildJailbreak で 35.3%、StrongREJECT で 48.0% となりました。
適応型攻撃への耐性:
- PAIR などの反復型ジャイルブレイク攻撃に対しても、提案手法は安全性の向上を維持し、アライメントの効果を損なわないことを確認しました。
比較:
- Perplexity や Self-certainty を用いた既存の BoN 手法と比較して、提案手法（Latent Similarity）は安全性の向上において顕著に優れていました。

5. 意義と結論

この研究は、審議的アライメントが安全性を「深く」する一方で、モデル内部に「不確実性」が残存し、それがベースモデルの性質に起因していることを明らかにしました。

実用的意義: 追加のトレーニングコストをかけずに、推論時のみでモデルの安全性を大幅に改善できる手法を提供しました。これは、リソース制約のある環境や、リアルタイムな安全性担保が必要なシステムにおいて重要です。
学術的意義: モデルの安全性が単なる表面レベルの拒絶ではなく、モデルの潜在表現の分布に深く関与していることを示し、安全性向上のための新しい視点（ベースモデルとの距離を測るアプローチ）を提供しました。

結論として、審議的アライメントは有望ですが、ベースモデル由来の不安定性を認識し、推論時にそれを補正するメカニズム（提案された BoN サンプリング）を組み合わせることで、より堅牢で安全な LLM を構築できることが示されました。

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

1. 背景：AI の「お勉強」には落とし穴がある

2. 問題点：生徒は「先生」になれなかった

3. 解決策：AI の「心」を覗いて、悪い方を消す

4. 結果：安全になりつつ、賢さも保たれた

まとめ

論文要約：Deliberative Alignment は深いが、不確実性は残る

1. 背景と問題提起

2. 提案手法：潜在空間に基づく BoN サンプリング

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Human-like Working Memory Interference in Large Language Models

Belief-State RWKV for Reinforcement Learning under Partial Observability

Active Inference with a Self-Prior in the Mirror-Mark Task