Entropy-Preserving Reinforcement Learning
この論文は、方策勾配アルゴリズムが訓練中にエントロピー(探索の多様性)を自然に減少させる問題を指摘し、REPO や ADAPO といったエントロピー制御メカニズムを導入することで、多様性を維持しつつ性能と継続学習能力を向上させる手法を提案しています。
3942 件の論文
この論文は、方策勾配アルゴリズムが訓練中にエントロピー(探索の多様性)を自然に減少させる問題を指摘し、REPO や ADAPO といったエントロピー制御メカニズムを導入することで、多様性を維持しつつ性能と継続学習能力を向上させる手法を提案しています。
この論文は、FastSpeech2 構造に明示的な感情条件付けと因果推論に基づく対照的訓練(間接経路制約と対照的プロソディ制約)を導入し、言語内容から感情プロソディを分離することで、自然さを損なわずに制御可能な感情表現とプロソディ編集を実現する新しい音声合成フレームワークを提案しています。
本論文は、決定木分類器における観測的多様性を「葉の後悔」と「構造の後悔」に分解する理論的枠組みを提示し、構造の後悔が主要な要因であることを実証するとともに、これらを棄却メカニズムとして活用することでモデルの安全性を向上させる手法を提案しています。
この論文は、テンプレート配列に対して挿入・削除・置換を制御可能な回数で予測する「EvoFlows」という変異フローに基づく手法を提案し、既存の言語モデルと同等の分布再現性を保ちつつ、より自然で非自明なタンパク質変異体を生成できることを示しています。
この論文は、超高分解能かつ広域な大気汚染予測の課題を解決するため、メタデータ入力に代わって物理的制約を組み込んだクロス解像度アテンション機構を備えた双枝ビジョントランスフォーマー「CRAN-PM」を提案し、単一 GPU で 1.8 秒以内にヨーロッパ全域の PM2.5 分布を生成しながら、従来の手法よりも予測精度を大幅に向上させることを示しています。
本論文は、電力網などの複雑な時系列データにおけるノイズや異常値を、異常検知と欠損値補完を単一の条件付き正規化フローに基づく確率的枠組み「CINDI」で統合的に処理し、データの物理的・統計的性質を維持しながら下流タスクの信頼性を向上させる手法を提案しています。
この論文は、クレジットリスク予測における予測多重性の負担を軽減するため、特にプラットスケーリングやアイソトニック回帰などの事後校正手法が、ラシュモネ集合内のモデル間不一致を低減し手続き的公平性を支援し得ることを示しています。
この論文は、観測空間の尤度ではなく、条件付き正規化フローの潜在空間に時系列の構造的な帰納的バイアスを導入し、規定された時間的ダイナミクスからの逸脱を統計的適合度検定で評価することで、高尤度領域でも有効な異常検出を実現する手法を提案しています。
この論文は、報酬の知識がない他者の行動のみを観測する社会型バンディット学習において、オラクルや社会的規範に依存せずに他者の専門性を推定し、直接経験と他者の推定ポリシーを統合する自由エネルギーベースのアルゴリズムを提案し、その最適ポリシーへの収束性と、非専門家を含む多様なエージェント集団における学習性能の向上を実証的に示したものである。
この論文は、ユーザーが記憶制約と時間制約の下で戦略的にリンクを探索する逐次意思決定プロセスとして情報香りを再定義し、モデルが実際のナビゲーションにおける誤選択やバックトラックを含む試行錯誤行動を再現できることを示しています。
本論文は、-集合半バンドット問題において、フリーチェ分布やパレート分布を用いたフォロウ・ザ・パーターブド・リーダー(FTPL)アルゴリズムが、敵対的設定で最適な regret 境界 を達成し、確率的設定でも対数 regret を達成する「両方の世界における最適性」を有することを示すと同時に、条件付き幾何学的リサンプリングを拡張することで計算複雑性を まで削減する効率的なアルゴリズムを提案しています。
本論文は、学習理論の枠組みを用いて、生成モデルの出力が学習データに再流入する「リプレイ」が、生成の強弱の定義によってモデル崩壊を誘発する条件を理論的に解明し、実務で用いられるデータクリーニングなどの手法の有効性と限界を明らかにしたものである。
この論文は、事前の対称性群の構造に関する知識を必要とせず、環境との相互作用を通じて自律的に群構造を発見し、その識別可能性を証明するとともに、既存手法を上回る線形対称性に基づく解離表現学習アルゴリズムを提案するものである。
この論文は、LiRA、RMIA、BASE といった既存のメンバーシップ推論攻撃を指数分布族の対数尤度比フレームワークで統一的に解釈し、分散推定を改善したベイズ推論攻撃 BaVarIA を提案することで、特にシャドウモデル数が限られる実用的な環境において、より安定した攻撃性能を実現することを示しています。
この論文は、大規模な教師モデルや手動アノテーションに依存せず、OpenStreetMap のメタデータと OCR 機能を活用して自己完結型のドメイン適応フレームワーク「OSMDA」を提案し、リモートセンシング用 VLM の性能向上とスケーラビリティを実現したことを述べています。
この論文は、機械学習における Quaternion(四元数)の活用を促進するため、四元数値確率過程の拡張統計、広線形モデル、四元数微積分・代数、および最小二乗推定といった基礎理論とアルゴリズムの導出を体系的に解説しています。
本論文は、スパースな観測データから隠れた ODE パラメータを高速かつ高精度に復元するための、スペクトル正則化付き条件付きフーリエニューラルオペレーターと、勾配逆伝播を不要とするアモルタイズド・ドリフトモデルからなる 2 段階フレームワーク「逆ニューラルオペレーター(INO)」を提案し、実世界の化学反応や遺伝子制御ネットワークのベンチマークにおいて既存手法を大幅に凌駕する性能と推論速度の実証を示しています。
この論文は、ラベル付きデータの不足と実環境で頻発する基地局ごとの特徴量欠損という 2 つの課題を同時に解決するため、クロスモーダル自己教師あり学習を CSI 表現学習に適用し、さらにダウンストリーム学習時に基地局ごとのマスキング拡張を導入する、多基地局 WiFi CSI センシングの新しい堅牢なフレームワークを提案しています。
この論文は、時系列予測におけるデータ正規化の課題を特定し、広く用いられている可逆インスタンス正規化(RevIN)の構成要素が冗長または有害であることを示すアブレーション研究を通じて、その堅牢性と汎用性を向上させる新たな視点を提供しています。
本論文は、LLM ベースの推薦システムが動的なニーズに適応する際の問題を解決するため、因果的に根拠のあるアイテム単位の報酬と不確実性を考慮したクリティックガイダンスを導入した強化学習フレームワーク「FlexRec」を提案し、多様な推薦シナリオで従来の手法や既存の LLM ベース手法を大幅に上回る性能を達成したことを示しています。