SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

この論文は、需要の断続性や変動性、予測期間に伴う性能低下といった複雑なビジネス環境において、予測モデルの安定した選択を可能にする「AHSIV」と呼ばれる適応型フレームワークを提案し、その有効性を複数の実データセットで実証したものです。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

この論文は、分散学習における LoRA の集約誤差と分解ドリフトを解消し、通信オーバーヘッドを最大 2041 倍削減しながら精度を向上させるため、単一の低ランク行列のグラム行列を集約し、プロクラステス法で整合性を保つ「FLoRG」という新しい連合学習フレームワークを提案しています。

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

この論文は、探索を強化し、メモリ利用時と非利用時の両方で堅牢な性能を発揮するハイブリッド強化学習フレームワーク「EMPO²」を提案し、ScienceWorld や WebShop などのタスクで既存手法を大幅に上回る成果と、パラメータ更新なしでの新規タスク適応能力を実証しています。

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

この論文は、AI エージェントの開発が米国の労働市場全体を代表するものではなくプログラミング中心に偏っていることを実証し、社会的に重要かつ技術的に困難な作業をより適切に捉えるベンチマーク設計のための 3 つの原則(網羅性、現実性、詳細な評価)を提案しています。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

本論文は、希少なトレーニングデータによる予測の脆弱性と、信頼性の低いモダリティによる性能低下という課題を解決するため、階層的なマルチエキスパート検索と Dempster-Shafer 証拠理論に基づく信頼性認識融合戦略を組み合わせた「MERA」という新しいフレームワークを提案し、タンパク質の活性部位特定において最先端の性能を達成したことを報告しています。

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

本論文は、AI エージェントが共有アーティファクト上のユーザーの同時行動を解釈し適応する「CLEO」システムを提案し、デザイナーとの共創的協働において、作業の委任、指示、同時作業のいずれを選択すべきかを決定するモデルと設計指針を導出したものである。

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

この論文は、タンパク質の幾何学的な剛性を考慮した自己教師あり学習フレームワーク「RigidSSL」を提案し、分子動力学シミュレーションや構造データベースを活用した事前学習により、タンパク質設計の設計可能性や多様性、およびコンフォメーション集合の物理的現実性を大幅に向上させることを示しています。

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI