Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

この論文は、単発の質問応答から複雑な対話型エージェントへの移行に伴う不確実性定量化(UQ)の必要性を指摘し、そのための包括的な定式化、エージェント特有の 4 つの技術的課題、および将来の研究方向性を提示する枠組みを提案しています。

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

この論文は、静的な予測に対する従来の説明可能性手法が自律的なエージェント AI の行動軌跡の診断には不向きであり、代わりに実行トレースに基づく評価が失敗の特定や状態管理の重要性を明らかにするため、エージェントシステムには軌跡レベルの説明可能性への転換が必要であることを示しています。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

この論文は、LLM の交渉能力を向上させるために、多様なシナリオを網羅する新しいベンチマーク「AgoraBench」、経済的根拠に基づいた人間と整合する評価指標、そして人間の選好に即した学習パイプラインを提案し、これにより LLM がより戦略的で対戦相手への意識の高い交渉を実現できることを示しています。

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

この論文は、需要の断続性や変動性、予測期間に伴う性能低下といった複雑なビジネス環境において、予測モデルの安定した選択を可能にする「AHSIV」と呼ばれる適応型フレームワークを提案し、その有効性を複数の実データセットで実証したものです。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

この論文は、分散学習における LoRA の集約誤差と分解ドリフトを解消し、通信オーバーヘッドを最大 2041 倍削減しながら精度を向上させるため、単一の低ランク行列のグラム行列を集約し、プロクラステス法で整合性を保つ「FLoRG」という新しい連合学習フレームワークを提案しています。

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

この論文は、探索を強化し、メモリ利用時と非利用時の両方で堅牢な性能を発揮するハイブリッド強化学習フレームワーク「EMPO²」を提案し、ScienceWorld や WebShop などのタスクで既存手法を大幅に上回る成果と、パラメータ更新なしでの新規タスク適応能力を実証しています。

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

この論文は、AI エージェントの開発が米国の労働市場全体を代表するものではなくプログラミング中心に偏っていることを実証し、社会的に重要かつ技術的に困難な作業をより適切に捉えるベンチマーク設計のための 3 つの原則(網羅性、現実性、詳細な評価)を提案しています。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI