XSkill: Continual Learning from Experience and Skills in Multimodal Agents
本論文は、マルチモーダルエージェントがパラメータ更新なしに過去の軌跡から学習し、視覚的観察に基づいて「経験」と「スキル」の二重ストリームを継続的に蓄積・適応させることで、複雑な推論タスクにおけるツール利用の効率性と柔軟性を大幅に向上させるフレームワーク「XSkill」を提案するものである。
3537 件の論文
本論文は、マルチモーダルエージェントがパラメータ更新なしに過去の軌跡から学習し、視覚的観察に基づいて「経験」と「スキル」の二重ストリームを継続的に蓄積・適応させることで、複雑な推論タスクにおけるツール利用の効率性と柔軟性を大幅に向上させるフレームワーク「XSkill」を提案するものである。
本論文は、事前学習済み拡散モデルを用いて低解像度の粗い参照画像から高品質な画像を生成するトレーニング不要な手法として、h 変換を導入し、近似誤差を補正するノイズレベル感知スケジューリングを組み合わせることで、従来の手法が抱える転送演算子の既知性や品質と誘導性のバランスの問題を解決する「Coarse-Guided Visual Generation via Weighted h-Transform Sampling」を提案しています。
この論文は、隠れ層を持たない化学反応ネットワークが、隠れ層を必要とするスパイクニューラルネットワークよりも優れた学習能力と分類精度を数学的に証明し、生化学的反応ネットワークが生物学的学習においてより効率的である可能性を示唆しています。
この論文は、従来の畳み込み演算の限界を克服し、画像処理における学習ベースのパイプラインを革新する構造化演算子を、分解ベース、適応重み付け、基底適応、積分・カーネル、アテンションの 5 つのファミリーに分類し、その特性と適用性を体系的に整理したものである。
LoV3D は、脳 MRI の縦断的データから領域ごとの体積評価に基づき認知予後を推論し、臨床的に重み付けされた検証器による直接選好最適化を通じて、従来の深層学習手法や VLM の限界を克服して高精度かつ説明可能なアルツハイマー病診断を実現する 3D 視覚言語モデルパイプラインです。
この論文は、転写因子の結合部位予測を単一の因子や二値分類ではなく、転写因子間の相関や協調的な制御メカニズムを捉える多ラベル分類問題として定式化し、時系列畳み込みネットワーク(TCN)を用いて生物学的に意味のあるモチーフや新たな共結合パターンを抽出する深層学習フレームワークを提案しています。
この論文は、単一のコンシューマー向け GPU 上で大規模言語モデル(LLM)の微調整なしに、履歴フィードバックメモリと双 LLM 特化アプローチを用いて効率的に画像分類用ニューラルネットワークを自動設計し、低予算かつ再現性のあるハードウェア認識型 NAS パラダイムを確立する手法を提案するものです。
この論文は、大規模言語モデル(LLM)が個人に関連付ける情報を可視化するブラウザ型自己監査ツール「LMP2」を開発し、ユーザー研究を通じて生成 AI 評価の課題やプライバシー監査における 9 つの摩擦を明らかにし、人間中心の監査手法の確立に向けた提言を行うものである。
この論文は、転向率のランダム化、安定志向の指数関数的フェーズ調整、および近隣観測に基づく MAPPO アルゴリズムを統合した強化学習フレームワークを提案し、Vissim シミュレーションにおいて既存手法を凌駕する一般化性能と 10% 以上の平均待ち時間削減を実現したことを示しています。
この論文は、強化学習を用いた LLM エージェントが能動的推論において「情報自己閉塞」に陥る現象を特定し、行動選択と信念追跡の能力向上を促すための方向性のある批判を学習信号に組み込む手法を提案することで、その問題を解決し大幅な性能向上を実現したことを示しています。
本論文は、ユーザー方策と敵対的擾乱方策間のミニマックス最適化に分数目的関数を導入して安定化を図る「MMDDPG」という枠組みを提案し、連続制御タスクにおける外乱やモデル不確実性に対するロバスト性を大幅に向上させることを示しています。
この論文は、言語モデルがテキスト記述のみから嗅覚や味覚に根ざしたソムリエの専門知識を習得できるかを検証するため、多言語でワイン理論、特徴補完、料理とのペアリングの 3 つのタスクからなる評価ベンチマーク「SommBench」を提案し、その性能評価結果を報告するものである。
本論文は、関節に軟質材料、リンクに剛性材料を配置し、転がり接触関節面と腱駆動を採用することで、接触に富む操作において強度と耐久性を向上させつつ、 fragile な物体の把持や可視化遠隔操作にも対応する、低コストかつオープンソースのハイブリッド硬軟コンプライアンスを備えた人工手「CRAFT」を提案するものである。
リソースが不足している状況では、AI エージェントの知能向上や多様性がシステム全体の過負荷を悪化させる可能性がある一方、リソースが豊富であればその影響は軽減され、集団の帰結はエージェントの高度さではなく「容量と人口の比率」という単一の数値によって決定されることを、この論文は示しています。
本論文は、大規模言語モデル(LLM)のトポロジカル推論能力を評価するベンチマーク「TopoBench」を提案し、LLM の失敗が推論そのものではなく、空間的制約の抽出と維持にあることを示しています。
この論文は、汎用的なプロンプトテンプレート、階層的検証、反復的エージェント支援修復という手法を用いて、数ヶ月の専門的エンジニアリングを要していた複雑な強化学習環境を、10 ドル未満の計算コストで高性能かつ意味的に同等な実装へ自動変換する画期的なレシピを提案し、5 つの環境における大幅な高速化とゼロのシミュレーション間ギャップを実証しています。
本論文は、従来の多段階生成モデルの時間的冗長性を解消しつつ、動画の画質と軌跡の精度を両立させるために、軌跡アダプターの事前学習、生成器の少ステップ化、そしてハイブリッドな微調整戦略を組み合わせた新しいフレームワーク「FlashMotion」と、その評価用ベンチマーク「FlashBench」を提案するものである。
この論文は、大規模言語モデルの強化学習における計算リソースの最適配分を明らかにし、問題ごとの並列ロールアウト数を計算予算に応じて増やすことで、簡単な問題では解の鋭敏化を、難しい問題では探索範囲の拡大を促進し、効率的な学習を実現する実践的な指針を提供しています。
GlyphBanana は、補助ツールを用いてグリフテンプレートを潜在空間やアテンションマップに注入するエージェントワークフローを提案することで、既存のテキスト生成モデルのトレーニングなしで複雑な文字や数式の高精度な描画を実現する手法です。
この論文は、二成分混合モデルを用いた理論的枠組みを構築し、KL 発散の方向性、幾何学的な行動の重なり、サンプリング戦略、および過去の行動の可視性が、生成モデルの継続的学習における「質量の消失」と「成分のドリフト」という 2 種類の忘却をどのように定量的に決定するかを明らかにしています。