On Sample-Efficient Generalized Planning via Learned Transition Models
本論文は、Transformer ベースの直接行動予測アプローチの限界を克服し、学習された遷移モデルを用いて中間状態を予測する手法を提案することで、より少ないデータと小規模なモデルで分布外汎化性能を向上させることを実証したものである。
8339 件の論文
本論文は、Transformer ベースの直接行動予測アプローチの限界を克服し、学習された遷移モデルを用いて中間状態を予測する手法を提案することで、より少ないデータと小規模なモデルで分布外汎化性能を向上させることを実証したものである。
App Store の検索ランキングにおいて、LLM を活用して生成したテキスト関連性ラベルを行動データと組み合わせることで、オフライン評価指標の改善と、特にロングテールクエリにおけるコンバージョン率の統計的有意な向上(+0.24%)を実現した。
本論文は、FP4 精度の注意機構における訓練の不安定さを解消し、アウトライヤー対策なしに品質を回復しながら RTX 5090 で最大 1.5 倍の高速化を実現する、初の体系的な量子化感知学習(QAT)手法「Attn-QAT」を提案するものです。
本論文は、外部からの指示に依存せず、人格特性を内生的な組織原理として活用し、自律的に目標を生成・進化させることで、動的な環境における永続的な自律性を達成する新しい認知アーキテクチャ「PEPA」を提案し、実世界のロボットによる実証実験を通じてその有効性を立証したものである。
本論文は、心電図信号におけるマルチモーダルモデルの推論能力を評価するため、信号パターンの正確な識別(知覚)と臨床知識の論理的適用(推論)を分離し、それぞれをコード生成による実証的検証と構造化臨床基準との照合によって評価する、スケーラブルで再現性のあるフレームワークを提案しています。
本論文は、構造化された医薬品ラベルと自由記述の放射線レポートという異なる臨床ドメインにおいて、LLM の抽出結果に対する信頼性の方向性が逆転することを発見し、ドメイン固有のコンフォーマル予測フレームワークを用いて、いずれの領域でも安全な臨床展開を可能にする有限サンプルの被覆保証を実現したことを報告しています。
本技術報告書は、従業員離職予測および都市リソース配分システムという異なるドメインでの評価を通じて、説明性 AI 戦略設計のための汎用的な意思決定支援ツールとしての「説明性ソリューション空間(ESS)」フレームワークの妥当性を拡張的に実証したものである。
2026 年の F1 新規定における不完全観測条件下でのエネルギー戦略最適化のため、競合他車の隠れた状態を隠れマルコフモデルで推論し、その推論結果を Deep Q-Network に投入して意思決定を行う 2 層フレームワークを提案し、敵の欺瞞的な「カウンターハーベスト」戦略の検出や ERS 状態の高精度推定を実現する手法を示しています。
本論文は、メタデータの意味的異質性と統計的分布シフトという二重の課題を、LLM 駆動のセマンティック統一化と階層的行動空間における適応的モンテカルロ木探索によるアーキテクチャ合成という二つの専用メカニズムで解決し、人手を介さずに単一細胞干渉実験の自動モデル構築を実現する「HarmonyCell」というエンドツーエンドのエージェントフレームワークを提案するものである。
この論文は、大規模言語モデル(LLM)を活用して自然言語指示を実行可能なルールに変換し、セマンティックなアノテーション付きのオプションを自動生成する閉ループフレームワークを提案することで、深層強化学習のデータ効率、解釈性、および環境間での転移性を向上させる手法を提示し、Office World や Montezuma's Revenge などの実験でその有効性を実証したものである。
この論文は、局所化器とセグメンテーション器を統合し、時間的一貫性ラッパーを備えた検出ゲート型パイプラインを提案することで、高速度ビデオエンドスコピーにおける喉頭領域波形の抽出精度と臨床的病理評価のための生体マーカーの一般化性を飛躍的に向上させたことを報告しています。
本論文は、メコンデルタの無形文化遺産画像分類におけるデータ不足と過学習の問題に対し、CoAtNet 構造とモデルスープ(モデルの重み平均化)を組み合わせることで、分散を低減し、既存の強固なベースラインを凌ぐ最先端の精度を達成したことを示しています。
本論文は、LLM エージェントのメモリ性能において、記憶の書き込み戦略よりも検索手法の改善がより大きな効果をもたらすことを示す診断フレームワークを提案し、高コストな要約処理よりも生テキストの保存が有効であることを実証しています。
本論文は、評価プロセス自体の再現性、監査可能性、実行失敗への耐性を確保するための「エージェント化された評価」フレームワークを提案し、FOLIO データセットを用いた自動形式化エージェントのベンチマークにおいて、従来の連鎖推論ベースラインを上回る 86.70% の精度を達成したことを示しています。
本論文は、勾配計算やパラメータ更新を必要とせず、GramCol と運動特徴選択アルゴリズムを導入することで、動画生成モデル(Video DiT)における運動概念の空間的・時間的な局所化を可能にする解釈可能な運動注意マップ(IMAP)を提案し、運動および非運動概念の両方に対して優れた局所化性能と可視化を実現するものです。
この論文は、古典的な有界分散モデルにおいて、停止時間とマルチンゲール解析を用いて、信頼パラメータに対する依存度がAdamはであるのに対しSGDは少なくともを必要とするという、両者の高確率収束挙動における理論的な分離を初めて証明し、Adamの第二モーメント正規化がより鋭い尾部をもたらすことを示しています。
この論文は、Compositional Probe Decomposition (CPD) という手法を用いて、分子モデルにおける幾何学的・組成情報の線形分離性を定量化し、タスクの整合性、データ多様性、対称性に基づく情報経路が、モデルの表現における線形分離の度合いを決定づけることを明らかにしました。
この論文は、小規模言語モデルにおける出力分布の鋭さを測定する汚染検出手法(CDD)が、単なる確率ベースの手法(Perplexity や Min-k% Prob)に劣り、特に微調整による逐語的記憶が起きない限り無効であることを、制御された実験を通じて実証しています。
本論文は、LLM の計画能力と外部ツール接続を可能にするモデルコンテキストプロトコル(MCP)を活用して SPARQL エンドポイントを統合する自律型エージェントの性能を評価し、従来の知識グラフ質問応答ベンチマークを拡張した分散型 FKQA ベンチマークを用いて、エンドポイント発見からクエリ作成までの各アーキテクチャを比較検討するものである。
本論文は、フットサル、バスケットボール、そしてフットボール(フットボール)の 3 つの競技における「利用可能なスペース」と「オフボールランのタイミング」という共通の課題に焦点を当て、追跡データを標準化して可視化するオープンなプラットフォームを提案し、特にフットボールをテストベッドとしてその有効性を検証したものである。