Post-Training with Policy Gradients: Optimality and the Base Model Barrier
本論文は、ベースモデルのサポートを超える際に生じる「尤度分位(LQ)」という障壁を明らかにし、出力報酬を用いた方策勾配法が次元の呪いに直面するのに対し、プロセス報酬モデルを用いることでトークンレベルの LQ に依存し、次元の呪いを回避して最適に学習できることを示しています。
8491 件の論文
本論文は、ベースモデルのサポートを超える際に生じる「尤度分位(LQ)」という障壁を明らかにし、出力報酬を用いた方策勾配法が次元の呪いに直面するのに対し、プロセス報酬モデルを用いることでトークンレベルの LQ に依存し、次元の呪いを回避して最適に学習できることを示しています。
この論文は、四足歩行の限界サイクルやポアンカレ写像の構造に基づく原理的分析から、数秒のデモンストレーションのみでオフライン学習により頑健な歩行制御ポリシーをゼロから学習する新しい模倣学習手法を提案し、ハードウェア実験でその有効性を実証しています。
この論文は、大規模言語モデルを対話相手として専門家が自らのコミットメントを精査・明確化する「Elenchus」という対話システムを提案し、それを Hlobil と Brandom の非単調論理 NMMS にマッピングすることで、W3C の PROV-O Ontology の設計根拠を対話から形式化し、推論まで一貫して統合する手法を示しています。
この論文は、6 つの異なるドメインと 5 つの埋め込みモデルを用いた大規模評価を通じて、単純な固定長分割よりも意味や構造を考慮したチャンキング手法(特に段落グループ化)が検索精度を大幅に向上させることを実証し、ドメインやモデルサイズに応じた最適な戦略と効率性のトレードオフを明らかにしたものである。
本論文は、一般和マルチエージェント強化学習において、プレイヤーに依存しないポテンシャル関数を学習することで混合協調・競争環境における近似ナッシュ均衡を効率的に計算する新しいパイプライン「NePPO」を提案し、既存手法よりも優れた性能を実証したものである。
この論文は、拡散モデルの制御を統一的な制御理論の枠組み(LS-MDP)として再解釈し、これに基づいて事前学習済みモデルのバックボーンを凍結したまま軽量なサイドネットワークで効率的に微調整を行う「Diffusion Controller(DiffCon)」という新たな手法とアルゴリズムを提案し、Stable Diffusion における生成品質と効率性の両面で既存手法を上回る性能を実証したものである。
この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。
この論文は、事前学習されたビジョン基盤モデルの潜在空間で確率的な世界モデルを学習し、その不確実性推定値を用いて二腕マニピュレータの故障を高精度に検出するランタイム監視システムを提案し、既存手法よりもはるかに少ない学習パラメータで優れた性能を示すことを、新規に作成したデータセットを用いて実証したものです。
この論文は、デザイン教育における生成AIの活用を「主体性、領域知識、想像力、審美眼」の4要素から分析し、AIは創造性の代替ではなく認知の加速装置として機能し、その効果的な協働には人間の高度な能力の育成が不可欠であると結論付けています。
この論文は、自動化された評価モデルからの弱い教師信号を用いた「Self-MOA」というフレームワークを提案し、小規模言語モデルが従来の人間によるアノテーションに依存することなく、安全性と有用性を両立させながら効率的にアライメントできることを実証しています。
この論文は、複雑な特徴量設計やグラフベースのアーキテクチャに依存せず、最小限の 4 つの特徴量と Transformer 機構を活用した軽量な強化学習フレームワーク「ReSched」を提案し、柔軟ジョブショップスケジューリング問題において既存の手法を上回る性能と高い汎用性を示したことを報告しています。
本論文は、長文脈における注意の希薄化や推論の幻覚といった課題を解決するため、教師あり微調整、識別的選好アライメント、グループ相対方策最適化の 3 段階からなる選好アライメントフレームワーク「Hit-RAG」を提案し、大規模モデルを上回る長文脈推論性能の実現を報告しています。
この論文は、ウェブエージェントの汎化能力を向上させるため、高レベルの論理計画と具体的な行動詳細を分離する階層的メモリツリー(HMT)を提案し、Mind2Web や WebArena などのベンチマークで既存の平らなメモリ構造を凌駕する性能を実証しています。
この論文は、数十年にわたる地球規模のサブメートル・サブ秒精度の 4 次元空間時間位置符号化「Earth4D」を導入し、自己教師ありマルチモーダル世界モデル「DeepEarth」を構築して生態系予測の最先端性能を達成したことを報告しています。
この論文は、マルチ画像タスクにおける大規模視覚言語モデルの幻覚を軽減するため、画像間の注意メカニズムを調整し、真の視覚証拠に基づく選好学習を行う構造化フレームワーク「CAPL」を提案し、マルチ画像の性能向上と単一画像タスクへの汎化能力の維持を実現したことを示しています。
この論文は、LLM 支援による対話型スクリプトと汎用的なアニメーション記述子を活用し、専門知識を持たない科学者が汎用ワークステーションで 1PB を超えるペタスケールの時変データを迅速に 3D アニメーション化できるフレームワークを提案し、その有効性を NASA の気候・海洋データを用いたケーススタディで実証したものである。
本論文は、限られたラベル付きデータのみで産業機械の故障診断を可能にするため、物理空間と仮想空間の双方向プロトタイプアンカリングと多周期性学習を組み合わせたデジタルツイン支援の新しい手法を提案し、非同期モータの実験でその有効性を検証したものである。
MedSteer は、拡散トランスフォーマーのクロスアテンション層における活性化操作を用いて、トレーニング不要で解剖学的構造を維持したまま病変概念のみを反転させる対照的エンドスコピック画像合成フレームワークを提案し、既存手法を上回る構造保存性と臨床概念の転換精度を達成したことを示しています。
本論文は、GPT-4 を活用した対話システムによるインタビューからユーザーレビューを生成する手法を提案し、システム利用者からの評価向上、編集時間の短縮、そして人間が執筆したレビューよりも読者にとって有用であるという結果を実証したものである。
本論文は、大規模推論モデル(LRM)の思考過程における冗長性を定量化し、推論効率を評価するためのグラフ駆動型フレームワーク「CoTJudger」を提案し、自由形式の思考連鎖を依存グラフに変換して最短有効経路を抽出することで、モデルの推論能力と計算の無駄を明確に区別する手法を確立したことを述べています。