Automated Reinforcement Learning: An Overview
本論文は、強化学習のモデル化やアルゴリズム選択、ハイパーパラメータ調整などの主要な構成要素を自動化する「自動強化学習(AutoRL)」の動向を、大規模言語モデルを用いた最新手法や将来の統合が期待される技術を含めて包括的に概観し、その課題や今後の研究方向について議論している。
2393 件の論文
本論文は、強化学習のモデル化やアルゴリズム選択、ハイパーパラメータ調整などの主要な構成要素を自動化する「自動強化学習(AutoRL)」の動向を、大規模言語モデルを用いた最新手法や将来の統合が期待される技術を含めて包括的に概観し、その課題や今後の研究方向について議論している。
この論文は、天文学における不確実な時系列データの分類において、既存の解釈可能な手法の性能不足とデータ不確実性の欠如を解決するため、データの不確実性を入力として取り込み、予測の解釈性を保ちながら最先端の性能を達成する新しいモデルを提案するものである。
本論文は、大規模言語モデル(LLM)の背景、主要な知見、および主要な技術(事前学習、適応チューニング、活用、能力評価)を包括的にレビューし、利用可能なリソースと今後の課題を議論する調査論文である。
本論文は、ロボットにおける意思決定や学習を人間の社会構造に類似した形で最適化するための基盤として、功利性理論に基づく認知モデルの進化、価値システムの応用、および将来の研究課題を包括的に調査・検討したものである。
この論文は、ループベースのグラフにおける自動搬送車(AGV)のオンライン配送・経路計画問題に対して、任意の容量と順序付けられたジョブに対応する新しいループベースアルゴリズムを提案し、理論的および実世界の事例を用いた実験により、既存の手法と比較して同等以上の解をより短時間で得られることを実証しています。
本論文は、従来の知識ベースおよび機械学習ベースのアプローチに代わる新たなパラダイムとして、検索とマッチングを行う二つのシエーズエージェントと一連のツールで構成されるLLMエージェント駆動型のオントロジー整合フレームワーク「Agent-OM」を提案し、OAEI 評価において複雑なタスクや少数ショットタスクで顕著な性能向上を実証したものである。
本論文は、従来の心理測定学に依存するコンピュータ適応型テスト(CAT)の枠組みを、測定モデルや問題選択アルゴリズムなどの主要構成要素に機械学習を統合する新たな視点から包括的に調査し、より強健で公平かつ効率的な次世代テストシステムの構築を提唱するものです。
この論文は、方策勾配法を用いて確率分布でアトリビューションベースの説明を最適化する「FEX」という新しいフレームワークを提案し、従来のモデル非依存アプローチと比較して推論時間を 97% 以上削減しつつ、高品質で汎用的な説明をリアルタイムで可能にすることを示しています。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。
LAMBDA は、大規模言語モデルを活用し、コード生成を行う「プログラマー」とデバッグを行う「インスペクター」という 2 つの代理エージェントを連携させることで、自然言語による直感的なデータ分析を可能にするオープンソースのマルチエージェントシステムである。
この論文は、最適輸送理論に基づく正則化と凸統合問題の解決を通じて、局所リプシッツ連続性を保証しつつ訓練データに高精度に適合する新しい強健な敵対的防御モデル「OTAD」を提案し、多様なデータセットにおいて既存の強健モデルを上回る性能を実証しています。
この論文は、高次元空間や複雑なデータにおける提案分布の生成が困難という既存のベイズ GPLVM の課題を解決するため、変分推論と Annealed Importance Sampling を組み合わせ、すべての変数を再パラメータ化することで効率的な学習を実現し、より tight な変分境界や高い対数尤度、頑健な収束性を実現する手法を提案しています。
本論文は、音声と動画データを統合して喉頭動画から重要なセグメントを抽出し、拡散モデルによる精緻化や角度偏差測定を用いて声帯麻痺の検出精度を向上させた支援診断システム「MLVAS」を提案し、その有効性を実証したものである。
この論文は、AI を活用したテストケース生成と検証が、従来のソフトウェアテストが抱える課題を解決し、効率性・精度・拡張性を飛躍的に向上させる可能性と、その実装における課題や実用例について考察している。
本論文は、データ移動やメモリアクセスなどのオーバーヘッドを包括的に評価する厳密なエネルギーモデルを用いて、特定の条件下(平均スパイク率が 6.4% 未満など)でのみスパイクニューラルネットワーク(SNN)が従来の量子化人工ニューラルネットワーク(QNN)を上回るエネルギー効率を実現し得ることを実証し、スマートウォッチのバッテリー寿命を倍増させる可能性を示唆しています。
この論文は、物理システムの数学的構造と安定性を保ち、入力と潜在空間の力を双方向に変換可能にする「結合振動子ネットワーク(CON)」を提案し、これにより画像からのみ学習した複雑な非線形力学を閉形式の制御理論と組み合わせて効率的に制御する手法を実現したことを示しています。
本論文は、ボルツマン分布からの効率的なサンプリングを目的として、ノイズ付きエネルギーの学習に基づく拡散サンプリング手法「NEM」と、そのバイアスと分散を調整するブートストラップ技術を組み合わせた「BNEM」を提案し、複雑な分布における最先端の性能と頑健性を示しています。
CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。
この論文は、Mori-Zwanzig 形式に着想を得て、遅延時間変数をデータから学習するニューラル遅延微分方程式(NDDE)を提案し、部分観測条件下での非マルコフ的動的システムのモデル化において、既存の手法よりも優れた性能とデータ効率を実現することを示しています。
この論文は、畳み込みニューラルネットワークの層パラメータをニューラル常微分方程式によって記述される連続的な力学系としてモデル化する「Puppet-CNN」を提案し、入力複雑さに応じて計算量を動的に調整可能にしながら、保存される学習パラメータを大幅に削減しつつ競合する予測性能を達成することを示しています。