Resource-constrained Amazons chess decision framework integrating large language models and graph attention
本論文は、大規模言語モデルの生成能力とグラフ注意メカニズムを統合した軽量ハイブリッド枠組みを提案し、限られた計算資源下でも「アマゾンズ」ゲームにおいて教師モデルを上回る高性能な意思決定を実現することを示しています。
4689 件の論文
本論文は、大規模言語モデルの生成能力とグラフ注意メカニズムを統合した軽量ハイブリッド枠組みを提案し、限られた計算資源下でも「アマゾンズ」ゲームにおいて教師モデルを上回る高性能な意思決定を実現することを示しています。
この論文は、LLM における指示階層(IH)の堅牢性を向上させるための強化学習用データセット「IH-Challenge」を提案し、GPT-5-Mini への適用により安全性と有用性を大幅に改善しつつ能力の低下を最小限に抑えたことを報告しています。
この論文は、部分的に観測可能なマルコフ決定過程(POMDP)として定式化した医療物資の時間的制約付き配送問題を、近接方策最適化(PPO)を用いたマルチエージェント強化学習フレームワークで解決し、実世界の地理データに基づく実験により古典的 PPO が非同期学習よりも優れた協調性能を示すことを実証しています。
この論文は、骨やインプラントのセグメンテーションタスクにおいて、11 種類のプロンプタブル基盤モデルを評価した結果、モデルやプロンプト戦略によって性能が大きく異なり、特に人間のプロンプトを使用すると性能が低下し、モデルがプロンプトのばらつきに敏感であることを示し、人間主導の環境での最適なモデル選出の難しさを浮き彫りにしました。
本論文では、従来の層の積み重ねに代わり、ODE に着想を得た収束的な更新を用いて単一の共有ニューラルブロックを反復適用する「SCORE」という離散再帰的アプローチを提案し、パラメータ数の削減と収束速度の向上を実現することを示しています。
この論文は、事前学習済みマルチモーダルモデルと軽量アダプターを活用し、大規模な訓練データなしで炭素繊維強化プラスチックの欠陥をゼロショットで検出・可視化する新しい言語誘導型フレームワークを提案し、従来の手法を大幅に上回る性能を実証したものである。
この論文は、報酬信号を必要とせず、双方向的な反射メカニズムによる言語フィードバックで長期的な経験をモデルパラメータに定着させる自己微調整フレームワークを提案し、動的な RAN スライシング制御において従来の強化学習や LLM エージェントを上回る性能を実証しています。
本論文は、自律型コンピュータ操作エージェント(CUA)の評価にビジョン・言語モデル(VLM)を監査者として用いる手法を大規模に検証し、複雑な環境では精度が低下しモデル間での判断に不一致が生じるなど、現在のモデルベース監査アプローチには根本的な限界があることを明らかにしています。
本論文は、道徳的推論におけるアライメントタスクが本質的に多様性を必要とするという仮説を否定し、数学的推論と同様に報酬最大化型の強化学習(RLVR)が効果的であることを、高報酬応答の分布が集中しているという実証的発見を通じて明らかにしています。
この論文は、カーネル密度推定に基づく発散のワッサーシュタイン勾配流として「Drifting Model」を数学的に定式化し、モード崩壊とモードのぼやけを同時に回避する混合発散戦略や多様体への拡張を含む新しい生成モデルの枠組み「Gradient Flow Drifting」を提案し、その理論的根拠と有効性を示しています。
この論文は、不完全な観測データから完全な軌跡特徴を段階的に復元・学習する「プログレッシブ・リトロスペクティブ・フレームワーク(PRF)」を提案し、変長軌跡予測の課題を解決するとともに、Argoverse データセットでの実験によりその有効性を実証したものです。
この論文は、LLM ベースのエージェントが実行軌跡から戦略や失敗回復などの構造化された学習を自動抽出し、適応的なメモリ検索を通じて将来のタスク遂行能力を大幅に向上させる新しいフレームワークを提案しています。
この論文は、数学や一般分野など多様な推論タスクにおいて、手動で設計された検証ルールに依存せず、大規模言語モデル自体を暗黙の検証器として利用し、生成された回答の条件付き期待尤度を報酬信号とする「条件付き期待報酬(CER)」を提案し、自由形式の回答にも柔軟に対応できる汎用的な強化学習手法を確立したことを示しています。
この論文は、ニューラルネットワーク内の「アクティブパス」に基づいた新規かつ説明可能な手法を提案し、侵入検知システムにおける機械学習モデルのバックドアトリガーを検出・除去する有効性を示す実験結果を報告しています。
この論文は、タスクとモーションプランニングを統合し、モーションプランナから得られる記号的なフィードバックを用いてスケジューラを反復的に学習させることで、共有作業空間における複数オブジェクトのナビゲーション問題を解決する新規フレームワークを提案し、その有効性を検証したものである。
この論文は、現実世界の摂動下で視覚言語モデルの推論能力が低下する課題に対処するため、適応的な難易度制御と頑健性意識の一貫性報酬を用いたトレーニングフレームワーク「ROVA」と、実世界摂動を注入した新しいベンチマーク「PVRBench」を提案し、既存モデルの性能を大幅に向上させることを示しています。
この論文は、抽象解釈に基づく新しい帰納的説明手法「FAME」を提案し、大規模なニューラルネットワークにおいても説明のサイズを縮小しつつ計算を効率化し、VERIX+ などの既存手法を上回る性能を実証するものである。
臨床診断の複雑な認知プロセスを模倣し、対話的な深層臨床研究ワークフローを通じて検査を自律的に要請し経験を学習資産として外部化することで、診断精度を大幅に向上させつつ責任ある継続的進化を実現する「DxEvolve」という自己進化型診断エージェントが開発されました。
本論文は、OpenBCI Galea ヘッドセットと SuperTux を活用し、AI モデルや行動推論を埋め込まずに生体信号とインタラクションを構造化された観測データとして分離・表現することで、再現性と拡張性に優れたプラットフォーム非依存のデジタルヒューマンモデリングフレームワークを提案するものである。
この論文は、ブラックボックスモデルに対して敵対的サンプルを数学的に保証付きで計算する「Contract And Conquer(CAC)」手法を提案し、知識蒸留と探索空間の収縮に基づいて、既存の最先端手法を上回る性能を ImageNet データセットで実証したものである。