Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core
本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。
2385 件の論文
本論文は、協力型マルチエージェント強化学習におけるクレジット割り当て問題に対し、協力ゲーム理論の「コア」に基づく利得配分手法 CORA を提案し、エージェント間の連合貢献を適切に評価することで協調的な最適行動を促進し、既存手法を上回る性能を実現することを示しています。
この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。
この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。
この論文は、結晶学における質問応答タスクにおいて、LLM および MLLM が専門的な文脈情報をどのように活用するかを評価するための包括的なベンチマークフレームワーク「OPENXRD」を提案し、中規模モデルが文脈情報から最も恩恵を受けること、また AI 生成ではなく専門家による高品質な資料が性能向上に不可欠であることを実証しています。
この論文は、数学的発見の本質を既存の語彙内での探索ではなく「明示的概念の創出」に求め、現在の AI が達成した暗黙的概念形成の限界を指摘しつつ、機械による明示的概念の創出がもたらす可能性と人間との計算的トレードオフによる数学スタイルの差異を論じています。
本論文は、合成データを用いた GRPO と ORPO による Qwen2.5-Coder-32B の微調整により、Qiskit 向けコード生成の信頼性を向上させ、特に GRPO が中間レベルのタスクで顕著な成果を収めた一方で、高度なタスクには未だ課題が残ることを示しています。
この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。
この論文は、視覚的シーングラフとテキスト知識グラフをスペクトラルクラスタリングを用いた「SpecLink」で統合し、複雑なマルチモーダル環境におけるエンティティ整合を目的とした「CMEL」データセットを公開することで、大規模言語モデルの幻覚を軽減し最先端のパフォーマンスを実現する「MMGraphRAG」という新しいフレームワークを提案しています。
この論文は、LLM エージェントを用いて米中間の世論形成をシミュレーションし、事実の抽出、対立視点の提示、反事実的曝露という 3 つのバイアス除去メカニズムを評価した結果、対立視点の提示が最も効果的であり、モデルの地理的起源に依存する内在的バイアスが確認されたことを示しています。
この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。
本論文は、イタリアのテレビ番組『Blob』の手法に触発され、音声認識、意味的埋め込み、検索拡張生成(RAG)技術を統合してアーカイブ映像を自動で再文脈化し、新たな物語的モンタージュを生成する実験システム「AI Blob!」の設計と、メディア史研究および AI 駆動型アーカイブ研究への貢献を提示しています。
本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。
この論文は、テキスト形式のシラバスが学生に十分に理解されないという課題に対し、AI 生成音楽と仮想アバターを用いてシラバスを歌って提示する新しい手法を提案し、学生の関心と情報定着率を向上させたことを報告しています。
本論文は、BERT ベースのモデルの推論能力の限界と大規模言語モデル(LLM)の実用課題を克服するため、CoT による推論の注入、DPO による生成品質の向上、GRPO による幻覚の抑制、および効率的なオンライン展開を可能にする 3 段階のフレームワーク「TaoSR1」を提案し、EC 検索における商品関連性予測の性能を大幅に向上させたことを示しています。
この論文は、生成エージェントと仮想民族誌的手法を統合し、研究者を外部操作者から没入型参加者へと転換させることで、複雑な社会現象のシミュレーションと因果的な介入分析を可能にする計算的多エージェント社会実験フレームワーク「CMASE」を提案しています。
この論文は、大規模なドメイン固有データへの依存を大幅に削減しつつ、クロスモーダル知識グラフと専用物体検出モデルを統合することで、Minecraft 環境における高品質なエージェント構築を実現するコスト効率の高いフレームワーク「VistaWise」を提案しています。
この論文は、推論コストの増大や精度低下を招く過剰な Chain-of-Thought を回避するため、事前出力に基づいて動的に閾値を調整し推論を圧縮する適応型フレームワーク「SEER」を提案し、コード生成や数学タスクにおいて推論効率と精度の両立を実現することを示しています。
この論文は、大規模言語モデルによるコード変異エージェント「AlphaEvolve」を活用して、MAX-CUT やメトリック TSP などの組合せ最適化問題における近似不可能性の新たな下限を導出するガジェット構成を発見し、検証プロセス自体も AI によって高速化することで、複雑性理論の進展に AI が貢献できることを示した研究です。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。