Active Advantage-Aligned Online Reinforcement Learning with Offline Data
この論文は、オンライン RL とオフライン RL の長所を組み合わせる際に生じる課題を解決するため、方策の進化するニーズに合わせたデータを動的に優先する「自信あり能動利得整合(A3)」サンプリング戦略を採用した新しい手法 A3RL を提案し、その有効性を理論的および実証的に示したものである。
2379 件の論文
この論文は、オンライン RL とオフライン RL の長所を組み合わせる際に生じる課題を解決するため、方策の進化するニーズに合わせたデータを動的に優先する「自信あり能動利得整合(A3)」サンプリング戦略を採用した新しい手法 A3RL を提案し、その有効性を理論的および実証的に示したものである。
この論文は、時系列データと対応するテキストが共有する周期的な性質に着目し、既存の数値専用モデルのアーキテクチャを変更することなくマルチモーダル予測性能を向上させる新たなフレームワーク「Texts as Time Series (TaTS)」を提案しています。
この論文は、大規模言語モデル(LLM)を用いて脳活動に対応する画像の自然言語キャプションを生成する「LaVCa」という手法を提案し、従来の手法よりも正確かつ詳細に視覚野のボクセル選択性を記述し、脳内表現の微細な機能分化の解明に貢献することを示しています。
この論文は、タスクの難易度に基づいてクラスタリングを行い、予測可能な部分集合の性能を理論的に外挿する「難易度に基づくクラスタリング(COD)」フレームワークを提案し、大規模言語モデルの事前学習段階における下流タスク性能を高精度に予測する手法を確立したものである。
本研究は、BraTS データセットの多モーダル MRI 画像を前処理し、2D と 3D の UNET によるセグメンテーション結果を重み付き平均で融合して ResNet50 に投入する手法を提案し、99.25% の分類精度を達成することで、グリオーマのサブクラス分類の精度を大幅に向上させたことを示しています。
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、トレーニングデータの大部分が利用できない状況でも、保持セットの勾配と直交する部分空間へ忘却対象の勾配を射影することで両者の干渉を防ぎ、機械忘却の性能を向上させる新たな手法「OrthoGrad」を提案するものです。
本論文は、ウェアラブルデバイスや食事記録などのマルチモーダルデータと大規模言語モデルを統合した「GlucoLens」という説明可能な機械学習システムを開発し、食後高血糖の予測精度を向上させるだけでなく、個別の行動介入経路を提案することで糖尿病予防を支援する手法を提案しています。
本論文は、視覚言語モデルを用いて環境のセマンティクスを推論し、接触の許容度を方向ごとに評価したコストマップと接触認識型 A* プランナーを組み合わせることで、混雑した環境においても安定した接触を伴う効率的な運動計画を実現する「IMPACT」という新しいフレームワークを提案しています。
この論文は、逆変換可能なニューラルネットワークを用いた「滑らかなプロトタイプ等価性(SPE)」という枠組みを提案し、限定的でノイズの多い観測データから非線形力学系の長期的な振る舞いや不変集合を同定し、振動系の分類や生物学的プロセスの追跡を可能にする手法を開発したことを述べています。
この論文は、推薦システムや RAG などの大規模データにおける関連性と多様性を両立する部分集合選択問題に対し、多段階アプローチを採用することで、既存手法より精度を最大 4 ポイント向上させつつ 20〜80 倍高速化を実現する「MUSS」という新規手法と、その定数倍近似保証および理論的改善を提案しています。
この論文は、高予測エントロピーのトークンに基づいて推論ステップを自動的に分割し、人手による注釈を不要にしながら、少量のデータで最先端の性能を達成する新しいプロセス報酬モデル「EDU-PRM」を提案し、数学的推論タスクにおける精度向上とトークン使用量の削減を実現したことを報告しています。
本論文は、SMOTE、ADASYN、CTGAN を統合した新規ハイブリッドフレームワーク「MetaBoost」と反事実分析を組み合わせることで、メタボリックシンドロームの予測精度を向上させ、血糖値と中性脂肪がリスク低減の鍵となる臨床的知見を提供する。
この論文は、K-5 数学・読解問題の難易度推定において、大規模言語モデル(LLM)による直接的な推定よりも、LLM で抽出した特徴量を木ベース機械学習モデルに入力する手法の方が高い精度(相関係数 0.87)を達成し、大規模なフィールドテストへの依存を減らす有望なアプローチであることを示している。
この論文は、Gran Turismo 7 において、外部の位置特定装置を必要とせず自車搭載のカメラとセンサーデータのみを用いて学習した非対称な強化学習エージェントが、ゲーム内標準ドライバーを凌駕するチャンピオン級のレーシング性能を初めて実証したことを報告しています。
この論文は、ニューラルネットワークをベイズ統計力学系として扱う線形応答枠組みを開発し、データ分布の微小な摂動に対する感受性を推定することで、300 万パラメータのトランスフォーマーモデル内の多項式ヘッドや誘導ヘッドなどの機能モジュールを低ランク構造を通じて解釈可能にする手法を提案しています。
本論文は、OD 流と経路情報を統合した異種グラフ学習フレームワーク「HetGL2R」を提案し、これにより道路セグメントの重要度ランキングにおいて既存手法を上回る性能を達成することを示しています。
この論文は、2019 年から 2025 年にかけての LLM 推論および自律 AI エージェントに関する評価ベンチマーク、フレームワーク、プロトコルを体系的に統合・分類し、実世界応用例をレビューするとともに、将来の研究課題を提言する包括的なレビューです。
本論文は、複数のデータソースから分布ロバストな共有表現を学習する「StablePCA」を提案し、非凸最適化問題を解決するために凸緩和とミラー・プロックスアルゴリズムを導入するとともに、緩和の緊密性を評価するデータ依存の証明条件を導出しています。
本論文は、異質なデータから個体ごとの最適方策を学習するための個人化オフライン強化学習フレームワークと、その性能を保証する P4L アルゴリズムを提案し、シミュレーションおよび実データによる検証で既存手法を上回る性能を示すものである。