A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
11106 件の論文
この論文は、拡散モデルの微調整におけるサンプル効率と性能のバランスを改善するため、REINFORCE の分散低減技術と PPO のロバスト性を組み合わせた新しい強化学習手法「LOOP」を提案し、その有効性を示したものです。
この論文は、トレーニングデータの大部分が利用できない状況でも、保持セットの勾配と直交する部分空間へ忘却対象の勾配を射影することで両者の干渉を防ぎ、機械忘却の性能を向上させる新たな手法「OrthoGrad」を提案するものです。
本論文は、ウェアラブルデバイスや食事記録などのマルチモーダルデータと大規模言語モデルを統合した「GlucoLens」という説明可能な機械学習システムを開発し、食後高血糖の予測精度を向上させるだけでなく、個別の行動介入経路を提案することで糖尿病予防を支援する手法を提案しています。
本論文は、視覚言語モデルを用いて環境のセマンティクスを推論し、接触の許容度を方向ごとに評価したコストマップと接触認識型 A* プランナーを組み合わせることで、混雑した環境においても安定した接触を伴う効率的な運動計画を実現する「IMPACT」という新しいフレームワークを提案しています。
この論文は、逆変換可能なニューラルネットワークを用いた「滑らかなプロトタイプ等価性(SPE)」という枠組みを提案し、限定的でノイズの多い観測データから非線形力学系の長期的な振る舞いや不変集合を同定し、振動系の分類や生物学的プロセスの追跡を可能にする手法を開発したことを述べています。
この論文は、推薦システムや RAG などの大規模データにおける関連性と多様性を両立する部分集合選択問題に対し、多段階アプローチを採用することで、既存手法より精度を最大 4 ポイント向上させつつ 20〜80 倍高速化を実現する「MUSS」という新規手法と、その定数倍近似保証および理論的改善を提案しています。
この論文は、高予測エントロピーのトークンに基づいて推論ステップを自動的に分割し、人手による注釈を不要にしながら、少量のデータで最先端の性能を達成する新しいプロセス報酬モデル「EDU-PRM」を提案し、数学的推論タスクにおける精度向上とトークン使用量の削減を実現したことを報告しています。
本論文は、SMOTE、ADASYN、CTGAN を統合した新規ハイブリッドフレームワーク「MetaBoost」と反事実分析を組み合わせることで、メタボリックシンドロームの予測精度を向上させ、血糖値と中性脂肪がリスク低減の鍵となる臨床的知見を提供する。
この論文は、K-5 数学・読解問題の難易度推定において、大規模言語モデル(LLM)による直接的な推定よりも、LLM で抽出した特徴量を木ベース機械学習モデルに入力する手法の方が高い精度(相関係数 0.87)を達成し、大規模なフィールドテストへの依存を減らす有望なアプローチであることを示している。
この論文は、Gran Turismo 7 において、外部の位置特定装置を必要とせず自車搭載のカメラとセンサーデータのみを用いて学習した非対称な強化学習エージェントが、ゲーム内標準ドライバーを凌駕するチャンピオン級のレーシング性能を初めて実証したことを報告しています。
この論文は、ニューラルネットワークをベイズ統計力学系として扱う線形応答枠組みを開発し、データ分布の微小な摂動に対する感受性を推定することで、300 万パラメータのトランスフォーマーモデル内の多項式ヘッドや誘導ヘッドなどの機能モジュールを低ランク構造を通じて解釈可能にする手法を提案しています。
本論文は、OD 流と経路情報を統合した異種グラフ学習フレームワーク「HetGL2R」を提案し、これにより道路セグメントの重要度ランキングにおいて既存手法を上回る性能を達成することを示しています。
この論文は、2019 年から 2025 年にかけての LLM 推論および自律 AI エージェントに関する評価ベンチマーク、フレームワーク、プロトコルを体系的に統合・分類し、実世界応用例をレビューするとともに、将来の研究課題を提言する包括的なレビューです。
本論文は、複数のデータソースから分布ロバストな共有表現を学習する「StablePCA」を提案し、非凸最適化問題を解決するために凸緩和とミラー・プロックスアルゴリズムを導入するとともに、緩和の緊密性を評価するデータ依存の証明条件を導出しています。
本論文は、異質なデータから個体ごとの最適方策を学習するための個人化オフライン強化学習フレームワークと、その性能を保証する P4L アルゴリズムを提案し、シミュレーションおよび実データによる検証で既存手法を上回る性能を示すものである。
この論文は、知識蒸留がモデルの出力を模倣するだけでなく、内部回路の再編成や圧縮、不要なコンポーネントの破棄といった顕著な計算構造の変化を引き起こすことを、メカニズム的解釈性の手法を用いて明らかにし、蒸留モデルのロバスト性や汎化能力への重要な示唆を与えています。
この論文は、メタ学習の原理に基づき、将来的なデータ削除要求に備えて学習段階からモデルを最適化する「Ready2Unlearn」という新しいアプローチを提案し、プライバシー保護やセキュリティの観点から、従来の反応的な手法よりも効率的で原理的な機械学習の忘却を実現することを示しています。
Apple Vision Pro を活用して、3D 手の動きと指の追跡データが同期して記録された、これまでにない大規模かつ多様な巧緻な操作データセット「EgoDex」を構築し、模倣学習の政策評価やロボティクス・コンピュータビジョン分野の進展を促進する基盤を提供した論文です。
FreeKV は、アルゴリズム側で推論のクリティカルパスから KV 選択を分離するスペキュレイティブ検索と微細な修正を、システム側で CPU/GPU メモリ間のハイブリッドレイアウトと二重バッファリングによるストリーミング検索を採用することで、精度を維持しつつ既存の KV キャッシュ検索手法を最大 13 倍高速化するトレーニング不要のフレームワークを提案するものです。
この論文は、目的関数やデータ分布が時間とともに変化する動的環境におけるオンライン意思決定指向学習(DFL)の問題を扱い、目的関数の微分可能性を確保するための正則化と摂動手法を組み合わせることで、初めてこの問題に対する静的および動的後悔の理論的保証を提供するアルゴリズムを提案し、その有効性を示しています。