Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
本論文は、グラフフローモデルの遷移確率の解析的導出と局所的な探索を可能にする改良戦略を導入することで、検証可能な報酬を用いた強化学習を通じてグラフ生成を最適化する「Graph-GRPO」を提案し、分子最適化タスクなどで最先端の性能を達成したことを示しています。
2316 件の論文
本論文は、グラフフローモデルの遷移確率の解析的導出と局所的な探索を可能にする改良戦略を導入することで、検証可能な報酬を用いた強化学習を通じてグラフ生成を最適化する「Graph-GRPO」を提案し、分子最適化タスクなどで最先端の性能を達成したことを示しています。
この論文は、ラベルノイズを含む SGD による 2 層線形ネットワークの学習ダイナミクスを解析し、ラベルノイズがモデルを「怠惰な領域」から「豊富な領域」へ移行させ、最終的に汎化性能を向上させる二段階の学習プロセスを明らかにするとともに、その知見を SAM などの最適化アルゴリズムにも拡張可能であることを示しています。
この論文は、LLM によるバイアス付き評価と高コストな人間による監査を組み合わせ、逆確率重み付け残差を用いた推定器と PP-LUCB アルゴリズムを開発することで、テキスト証拠に基づくサービスシステムの最適構成を低コストかつ高信頼性で特定する手法を提案し、その有効性を理論的・実験的に証明したものである。
この論文は、時空間データセットの圧縮において時間・空間の両次元をバランスよく圧縮し、クラスタレベルとサブセットレベルの手法を組み合わせることで、従来の手法よりも高速かつメモリ効率よく、かつ予測精度を向上させた新しい時空間データセット蒸留手法「STemDist」を提案するものである。
本論文は、異なる運転条件における分布の不一致を解決するため、劣化段階を同期させたバッチサンプリングと大規模カーネルおよびクロスアテンションを統合した自動符号化器を提案し、異分野適応に基づく高品質な健全性指標の学習を実現する手法を提示しています。
この論文は、強化学習を用いて探索と利用のバランスを動的に調整する「重み付き改良貪欲サンプリング(WiGS)」を提案し、不規則なデータ密度を持つ領域を含む複数のベンチマークデータセットにおいて、既存の改良貪欲サンプリング法よりも高い精度とラベリング効率を実現することを示しています。
本論文は、標準的なガウス過程の予測形式が単峰性に制限されているという課題を解決し、複雑な出力分布を持つ条件付き密度推定を可能にする「一般化ガウス混合過程(GGMP)」を提案し、合成データおよび実世界データにおいて非ガウス性や多峰性の高い分布の近似精度を向上させることを示しています。
この論文は、FP4 量子化された LLM 学習における数値的不安定性の主要因がランク 1 の平均バイアスに起因することを発見し、これを単純な平均値の引き算で除去することで、SVD などの複雑な手法を避けつつ BF16 並みの安定性と性能を回復させる効率的な手法を提案しています。
この論文は、特定のテキストプロンプトで指定できない個人や文化的に不適切な生成物など「プロンプト不可」なインスタンスを、画像編集や勾配手術などの技術を用いて選択的に忘却し、モデルの残りの機能を維持する新しい機械学習手法を提案しています。
この論文は、最適輸送理論におけるブレンリエのポテンシャルの性質を活用して、多出力回帰における単調性を「循環単調性」として定義し、確率較正や一般化線形モデルにおいて既存手法を上回る性能を示す「ブレンリエ等方回帰」と呼ばれる新しい手法を提案しています。
本研究は、多解像度の入力データを統合した ConvLSTM アンサンブルモデルを提案し、段階的な掘削に伴う擁壁変形の長期予測における誤差蓄積を抑制し、予測精度と安定性を向上させることを実証した。
この論文は、中間エネルギー領域の強力な荷電粒子ビームにおけるビーム・プラズマ集団振動を、Vlasov-Poisson 系に基づく動力学場理論と Prometheus による教師なし学習を用いた検証の両面から解明し、ランダウ減衰の消失や Friedel 振動などの新しい物理現象を予測・実証したものである。
筋協調(筋肉のシナジー)を強化学習の制御空間に組み込むことで、限られた実験データから多様な歩行条件において生体力学的に忠実で汎用性の高い人間の歩行シミュレーションを実現する新しいフレームワークを提案しています。
この論文は、過剰パラメータ化された線形モデルにおける双空間前処理勾配降下法の収束性を新しいBregmanダイバージェンスを用いて証明し、特に等方的な前処理条件下では勾配降下法と同じ最小ノルム解に収束することを示しています。
この論文は、異なるタスクや文脈にわたって神経ダイナミクスを共有埋め込み空間内で学習する階層モデル「JEDI」を提案し、限られた実験データから脳の状態やメカニズムをスケーラブルかつ汎用的に推論できることを示しています。
この論文は、データ生成分布に依存せず真の次元に収束する普遍性を持つ近傍距離比に基づく新しい内次元推定量を提案し、理論的証明と実験を通じてその有効性を示しています。
この論文は、臨床要約における事実誤りを削減し妥当性を向上させるため、主張検証を用いて選好データを抽出し直接選好最適化(DPO)でモデルを調整する「VERI-DPO」という手法を提案し、MIMIC-III データセット上でその有効性を実証しています。
この論文では、テンソル特異値分解(T-SVD)の t-積代数とテンソル・トレイン(TT)形式の低次コア構造を融合させた新しいテンソルネットワーク「Tubal Tensor Train(TTT)」分解を提案し、その効率的な計算手法と画像・動画圧縮、テンソル補完、ハイパースペクトル画像処理などにおける実用性を示しています。
本論文は、大規模言語モデルの生成能力とグラフ注意メカニズムを統合した軽量ハイブリッド枠組みを提案し、限られた計算資源下でも「アマゾンズ」ゲームにおいて教師モデルを上回る高性能な意思決定を実現することを示しています。
この論文は、LLM における指示階層(IH)の堅牢性を向上させるための強化学習用データセット「IH-Challenge」を提案し、GPT-5-Mini への適用により安全性と有用性を大幅に改善しつつ能力の低下を最小限に抑えたことを報告しています。