Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part I
この論文は、観測や行動を予測することなくコストのみを予測するコスト駆動型アプローチを用いて、未知の部分的に観測可能なシステム(LQG 制御)に対する最適な状態表現と制御器を有限サンプル保証付きで学習する方法を確立したものである。
329 件の論文
この論文は、観測や行動を予測することなくコストのみを予測するコスト駆動型アプローチを用いて、未知の部分的に観測可能なシステム(LQG 制御)に対する最適な状態表現と制御器を有限サンプル保証付きで学習する方法を確立したものである。
この論文は、因果推論や条件付き独立性検出の分野で応用される二重ロバスト関数の推定において、サンプル分割と nuisance 関数のチューニング戦略を適切に組み合わせることで、低正則性条件下でも plug-in 推定量や第一-order 補正推定量がすべての H ölder 滑らかさクラスに対して最小最大収束率を達成し得ることを示しています。
本論文は、信頼区間を活用した非パラメトリック密度推定に基づく新たな統計学習手法を提案し、多品目オークションの実施コストを削減しつつ、高い確率で公平性や支配戦略インセンティブ両立性を保証する効率的な戦略を確立したことを示しています。
この論文は、最適輸送理論に基づく正則化と凸統合問題の解決を通じて、局所リプシッツ連続性を保証しつつ訓練データに高精度に適合する新しい強健な敵対的防御モデル「OTAD」を提案し、多様なデータセットにおいて既存の強健モデルを上回る性能を実証しています。
本論文は、深層コックスモデルにおけるミニバッチ確率的勾配降下法(SGD)の統計的基盤を確立し、新しい推定量(mb-MPLE)の一貫性と収束性を証明するとともに、学習率とバッチサイズの比率の重要性や大規模実データへの適用可能性など、実用的な指針を提供しています。
この論文は、高次元空間や複雑なデータにおける提案分布の生成が困難という既存のベイズ GPLVM の課題を解決するため、変分推論と Annealed Importance Sampling を組み合わせ、すべての変数を再パラメータ化することで効率的な学習を実現し、より tight な変分境界や高い対数尤度、頑健な収束性を実現する手法を提案しています。
本論文は、ボルツマン分布からの効率的なサンプリングを目的として、ノイズ付きエネルギーの学習に基づく拡散サンプリング手法「NEM」と、そのバイアスと分散を調整するブートストラップ技術を組み合わせた「BNEM」を提案し、複雑な分布における最先端の性能と頑健性を示しています。
この論文は、主データと補助データの間にある未知の不一致を考慮しつつ共通性を自動的に活用する「適応型転移クラスタリング(ATC)」アルゴリズムを提案し、その最適性と転移学習の利点を理論的に証明するとともに、数値実験と実データ分析でその有効性を示しています。
この論文は、ノイズのあるラベルを持つ分類問題において、深層学習フレームワーク内の過剰リスクのエラーバウンドを統計的誤差と近似誤差に分解し、依存プロセスへの対応や低次元多様体仮説の導入を通じて理論的な解析を行うものである。
この論文は、オンライン RL とオフライン RL の長所を組み合わせる際に生じる課題を解決するため、方策の進化するニーズに合わせたデータを動的に優先する「自信あり能動利得整合(A3)」サンプリング戦略を採用した新しい手法 A3RL を提案し、その有効性を理論的および実証的に示したものである。
この論文は、分散の大きい確率関数の最適化において、ガウス過程モデルと信頼領域枠組みを組み合わせ、評価回数を適動的に増やす複製戦略を導入することで、解の精度と計算効率を大幅に向上させる手法を提案し、数値実験でその有効性を示しています。
本論文は、異質なデータから個体ごとの最適方策を学習するための個人化オフライン強化学習フレームワークと、その性能を保証する P4L アルゴリズムを提案し、シミュレーションおよび実データによる検証で既存手法を上回る性能を示すものである。
この論文は、目的関数やデータ分布が時間とともに変化する動的環境におけるオンライン意思決定指向学習(DFL)の問題を扱い、目的関数の微分可能性を確保するための正則化と摂動手法を組み合わせることで、初めてこの問題に対する静的および動的後悔の理論的保証を提供するアルゴリズムを提案し、その有効性を示しています。
この論文は、保険料率設定におけるデータ不足やプライバシー問題への対応策として、MICE 法が深層生成モデル(VAE や CTGAN)と同等以上のデータ忠実度と GLM 予測性能を維持しつつ、実装の容易さにおいて優位であることを示す比較研究をまとめたものである。
本論文は、上段非凸・下段強凸の確率的バイレベル最適化問題において、高次滑らかさを活用して超勾配を近似する高次有限差分法 F²SA-を提案し、その収束率を改善するとともに、下界がであることを示すことで、高次滑らかさの領域においてこの手法がほぼ最適であることを証明しています。
この論文は、スパイクタイミングから深層学習と動的入力コンダクタンス(DIC)の理論的枠組みを組み合わせることで、神経の退化性(多様なイオンチャネル導電性の組み合わせが同様の活動を生む現象)を考慮しつつ、導電性ベースのニューロンモデルの生物物理パラメータを高速かつ効率的に再構築する手法を提案し、スパイク記録から機械的なモデルへの解釈可能な橋渡しを実現したものである。
この論文は、マルコフ連鎖における擬スペクトルギャップの実証的上界を導出することで、依存データに対する初めて完全な実証的 PAC-ベイズ汎化誤差限界を確立したことを報告しています。
この論文は、観測データから潜在結果の分布を推定する際に、準オラクル効率性と二重頑健性という望ましい理論的性質を持つ、条件付き正規化フローや拡散モデルなどの最先端生成モデルを汎用的に実装できる「GDR-learners」という新しい学習フレームワークを提案し、既存手法を上回る性能を実証しています。
この論文は、低重なり領域における条件付き平均処置効果(CATE)推定の精度向上を目指し、既存のメタラーナーに重なり重みに比例して正則化を適用する「重み適応正則化(OAR)」という新しい手法を提案し、その有効性を示しています。
この論文は、観測データを用いたマルコフ決定過程における個別化潜在結果の推定問題に対し、二重頑健性、ネイマン直交性、準オラクル効率性という優れた理論的性質を備え、任意の機械学習モデルと組み合わせ可能な新しいメタ学習器「DRQ-learner」を提案し、その有効性を理論的および実験的に実証したものである。