A Diffusion Analysis of Policy Gradient for Stochastic Bandits
本論文は、確率的バンディット問題における方策勾配法の連続時間拡散近似を解析し、学習率の条件に応じて対数後悔と線形後悔が分岐することを示しています。
333 件の論文
本論文は、確率的バンディット問題における方策勾配法の連続時間拡散近似を解析し、学習率の条件に応じて対数後悔と線形後悔が分岐することを示しています。
本論文は、確率的な目的関数と決定論的な非線形制約条件を持つ最適化問題に対して、適応的な精度条件を満たす確率的オラクルと内点法を組み合わせた新しい「TR-IP-SSQP」手法を提案し、その第一-order 停留点への大域的な収束性を理論的に証明するとともに、CUTEst テストセットやロジスティック回帰問題への適用を通じて実用性を示したものである。
この論文は、ハイパーパラメータに条件付けた事前分布が最大エントロピー分布(canonical distribution)である場合、ハイパーパラメータを積分して得られるパラメータの周辺事前分布も、未知量の関数の周辺分布に関する異なる制約のもとで最大エントロピー性を満たすことを示し、階層モデルを割り当てる際に仮定されている情報の本質を明らかにするものである。
LLM による評価スコアにおける計算コストとバイアスの課題を解決し、評価スコアテンソルの構造を解明するため、質問・回答者・評価者の各モードに対してクラスタ所属と代表点(メドイド)を同時に推定する新しいテンソルクラスタリング手法「MultiwayPAM」を提案し、その有効性を実データで実証した。
この論文は、非定常線形バンディット問題における固定予算ベストアーム同定(BAI)の複雑性を研究し、従来の次元に比例する複雑度評価の限界を克服するアーム集合依存の下限を導出するとともに、これに基づいて提案された「Adjacent-BAI」アルゴリズムがその下限と一致する誤り確率を達成することを証明し、アーム集合の幾何学的構造に依存した最適複雑性を確立したものである。
この論文は、LLM によるバイアス付き評価と高コストな人間による監査を組み合わせ、逆確率重み付け残差を用いた推定器と PP-LUCB アルゴリズムを開発することで、テキスト証拠に基づくサービスシステムの最適構成を低コストかつ高信頼性で特定する手法を提案し、その有効性を理論的・実験的に証明したものである。
この論文は、強化学習を用いて探索と利用のバランスを動的に調整する「重み付き改良貪欲サンプリング(WiGS)」を提案し、不規則なデータ密度を持つ領域を含む複数のベンチマークデータセットにおいて、既存の改良貪欲サンプリング法よりも高い精度とラベリング効率を実現することを示しています。
本論文は、標準的なガウス過程の予測形式が単峰性に制限されているという課題を解決し、複雑な出力分布を持つ条件付き密度推定を可能にする「一般化ガウス混合過程(GGMP)」を提案し、合成データおよび実世界データにおいて非ガウス性や多峰性の高い分布の近似精度を向上させることを示しています。
この論文は、最適輸送理論におけるブレンリエのポテンシャルの性質を活用して、多出力回帰における単調性を「循環単調性」として定義し、確率較正や一般化線形モデルにおいて既存手法を上回る性能を示す「ブレンリエ等方回帰」と呼ばれる新しい手法を提案しています。
この論文は、過剰パラメータ化された線形モデルにおける双空間前処理勾配降下法の収束性を新しいBregmanダイバージェンスを用いて証明し、特に等方的な前処理条件下では勾配降下法と同じ最小ノルム解に収束することを示しています。
本論文は、Fashion-MNIST データセットを用いた実験を通じて、H-CNN VGG16 と GoogLeNet の二つのアーキテクチャにおけるモンテカルロドロップアウトとコンフォーマル予測による不確実性推定を比較し、GoogLeNet がより適切に較正された不確実性を示し、コンフォーマル予測が統計的に保証された予測セットを提供することで高リスクな意思決定における信頼性の向上に寄与することを明らかにしています。
ReTabSyn は、強化学習を用いて特徴量間の相関を直接評価し、条件付き分布の学習を優先させることで、データ不足や不均衡といった制約下でも下流タスクの性能を向上させる現実的な表形式データ合成パイプラインを提案するものである。
この論文は、従来の適合度検定の限界を克服し、分布間の統計的に意味のある差異の不在を評価するための、カーネル・スタイン不一致と最大平均不一致を用いた新しい等価性検定手法を提案し、その漸近正規性近似およびブートストラップ法に基づく臨界値の計算方法を提示しています。
本論文は、高リスクな応用において質量スペクトルからの分子構造推定の信頼性を確保するため、不確実性が高い場合に予測を保留する選択的予測フレームワークを提案し、MassSpecGym ベンチマークを用いた評価により、計算コストの低い信頼度指標や検索レベルの偶然的不確実性がリスク・カバレッジのトレードオフにおいて優れていることを示しています。
この論文は、ガウス過程回帰と能動学習を用いた統一的なベイズ最適化ループを提案し、ポテンシャルエネルギー面上の極小点・単一鞍点・両端鞍点探索を加速するとともに、高次元システムへのスケーラビリティ向上と実用的な Rust 実装を示すものである。
この論文は、潜在交絡下での因果関係を表す祖先グラフの分布推論と、事前知識および不確実な事後の専門家フィードバックの統合を可能にする、多様性指向の強化学習アルゴリズム「Ancestral GFlowNet (AGFN)」を提案し、その収束性と実データでの有効性を示しています。
本論文は、従来の誤差逆伝播法よりも生物学的に妥当で、並列化により計算効率も向上し、教師あり・教師なし学習を統一的に扱える予測符号化ネットワーク(PCN)の理論的基盤と現代機械学習における位置づけを包括的にレビューし、その将来性を示唆するものである。
この論文は、交換性と置換検定に基づくコンフォーマル予測および関連する推論手法の理論的基盤を、複雑な機械学習ワークフローにおける分布フリーの有限サンプル保証を提供する重要な結果と証明を教育目的で統合的に解説する書籍の概要を述べています。
本論文は、カーネルフリーの二次曲面サポートベクターマシン(QSVM)の過学習と解釈性の課題を解決するため、モデルパラメータの基数制約(正則化)を導入した疎な変種を提案し、ル・張の最適性条件を満たす解を導出する効率的なペナルティ分解アルゴリズムを開発するとともに、その収束性を理論的に保証し、ベンチマークおよび実世界の信用スコアリングデータセットにおける有効性を実証したものである。
本論文は、非有界な領域における線形方程式の解法としてエントロピー鏡像降下法を適用し、Polyak 型ステップサイズを導入して収束解析を可能にするとともに、ノルムにおける暗黙的バイアスの強化や一般凸関数への拡張、指数計算を回避する代替手法の提案など、理論的な成果を多数得ている。