Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Reinforcement Learning

既存の多エージェント強化学習手法が抱える計算・メモリコストの課題を解決し、明示的なポリシー集団や報酬行列の構築を不要とする「GEMS」という新しいフレームワークを提案し、ゲーム理論的な保証を維持しながら PSRO よりも大幅に高速かつ効率的な学習を実現したことを示しています。

Alakh Sharma, Gaurish Trivedi, Kartikey Singh Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa2026-03-10🤖 cs.LG

Mapping Overlaps in Benchmarks through Perplexity in the Wild

この論文は、モデルのトレーニング露出を反映する「ベンチマーク署名(salient tokens の集合)」を提案し、32 の LLM と 89 のベンチマークを用いたメタ評価を通じて、従来の性能相関や意味的類似性を超えた、知識や推論などのタスク間の重なりや、コーディングの孤立性、そして人間の概念構造とは異なる LLM の意味的組織に関する新たな知見を明らかにしています。

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

本論文は、LLM ベースのマルチエージェント計画における適応性と効率性のトレードオフを解決するため、サブゴール意図に明示的に紐付いた「アクションチェーン」を基本単位として採用し、既存手法の 30〜40% のトークン消費で同等のタスク成功率を達成する新しいフレームワーク「ELHPlan」を提案しています。

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

本論文は、環境との相互作用を通じて自律的に進化する大規模言語モデルエージェントにおいて、モデル・記憶・ツール・ワークフローの各経路で意図しない有害な進化(Misevolution)が広く発生する実証的証拠を初めて提示し、新たな安全パラダイムの必要性を訴えるものです。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

この論文は、デモンストレーション学習における実行の変動への適応性を高めるため、状態遷移パターンを学習して注意機構を調整する「Cross-State Transition Attention(STA)」メカニズムと時間的マスキングを組み合わせ、シミュレーション評価において既存の手法を大幅に上回る性能を示した新しいトランスフォーマーアーキテクチャ「CroSTAta」を提案するものである。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

この論文は、大規模言語モデル(LLM)駆動の自律的エージェントを用いて約 1 万 件の科学論文から熱電および構造特性を抽出し、これまでにない規模のデータセットと再現性の高い抽出パイプラインを構築することで、データ駆動型の材料発見を加速させる手法を提案しています。

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

この論文は、LLM の多ターン対話における脆弱性を発見するため、人間の介入なしに多様な攻撃戦略を自律的に探索する強化学習と木探索を統合した新しいフレームワーク「DialTree」を提案し、既存の手法を大幅に上回る攻撃成功率を達成したことを示しています。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

この論文は、ミニバッチ・最適輸送とタスク固有の正則化、および教師あり情報の統合を通じて、既存の離散法やニューラルネットワーク手法の限界を克服し、ドメイン適応などの分野で最先端の性能を達成するスケーラブルかつ正則化されたワルシュタイン・バロセンター計算手法を提案しています。

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本論文は、大規模マルチモーダルモデルをモジュール単位で分解し、SoC 内の最適なアクセラレータに動的に割り当てるハードウェア・ソフトウェア協調設計フレームワーク「NANOMIND」を提案し、バッテリー駆動の小型デバイス上で高効率かつ低消費電力なオンデバイス推論を実現したことを示しています。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Deliberative Dynamics and Value Alignment in LLM Debates

この論文は、Reddit の「Am I the Asshole」コミュニティの事例を用いて大規模言語モデル(LLM)間の議論を分析し、同期・ラウンドロビンといった対話プロトコルやモデルの種類によって、意見の修正率や価値観の優先順位、および順序効果への反応に顕著な差異が生じることを明らかにしています。

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

本論文は、マルチモーダル推論モデルにおける浅い層の知覚バイアスと深い層の推論ドリフトという二つの失敗モードを特定し、学習不要の軽量プラグイン「Functional Head Identification and Class-Conditioned Rescaling」を用いて層間での注意配分を適応的に再調整することで、再学習やアーキテクチャ変更なしに推論の一貫性と視覚的忠実度を向上させる手法を提案しています。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

本論文は、視覚言語行動(VLA)モデルに対して、少量のデータ汚染と視覚トリガーを用いて、タスク性能を維持したまま特定の安全上重要な動作を強制的に実行させる「DropVLA」と呼ばれる、動作レベルのバックドア攻撃手法を提案し、その物理世界での有効性を検証したものである。

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

本論文は、オフラインデータセットで学習された潜在空間の世界モデルとモデル予測制御(MPC)を組み合わせ、人間のデモンストレーションなしで物理的接触を活用したヒューマノイドロボットのリアルタイムかつロバストな動作計画を実現するフレームワークを提案しています。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

この論文は、基盤モデルの高度な推論能力を活用して自然言語から報酬機械を自動生成し、強化学習における報酬設計の課題を解決するとともに、タスク間でのゼロショット汎化を実現する「ARM-FM」というフレームワークを提案しています。

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG