CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

インドの数学オリンピック問題を対象とした、AI と人間の協働パイプラインにより構築され、312 件の人間検証済み Lean 4 定理を含む新しいベンチマーク「IndiMathBench」を提案し、大規模言語モデルにおける自動形式化の現状と課題を明らかにした。

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

この論文は、生成された動画フレームの各領域における不確実性を高密度に推定し、物理的現実と一致しない「幻覚」を検知・可視化することで、ロボット制御などのタスクにおける信頼性を向上させる新しい不確実性定量化手法「C3」を提案するものです。

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

この論文は、フラグメントベースの言語モデル、強化学習、モンテカルロ木探索を統合した「Trio」というフレームワークを提案し、既存の手法を凌駕する結合親和性、薬物様性、合成容易性、および分子多様性を備えた解釈可能な閉ループ型分子発見を実現することを示しています。

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

この論文は、異なる環境間で最大リスクを最小化する(MaxRM)という原則に基づき、平均二乗誤差、負の報酬、後悔の 3 つのリスク指標に対応するランダムフォレストの新しい変種を提案し、その計算効率性、統計的整合性、および未見のテスト分布に対する保証を実証しています。

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

本論文は、RL 訓練中のチェックポイントをマージして「無料の教師モデル」として活用する GTR-Turbo を提案し、高価な外部モデルへの依存を排除しつつ、マルチモーダルエージェントの精度を大幅に向上させるとともに訓練時間と計算コストを大幅に削減する手法を提示しています。

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

本論文は、多様な電池データから転移可能な表現を学習する「事前学習済みバッテリー・トランスフォーマー(PBT)」という基礎モデルを初めて提案し、リチウムイオン、ナトリウムイオン、亜鉛イオン電池を含む広範なデータセットにおいて、既存の最良手法を大幅に上回る電池寿命予測性能を達成したことを報告しています。

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

この論文は、TLS 3D ポイントクラウドから生成された 2D 画像を用いて YOLOv8 で樹種分類を行う際、Finer-CAM による可視化解析がモデルの判断根拠(主に樹冠や幹などの構造的特徴)を忠実に説明し、分類精度の向上とモデルの信頼性構築に寄与することを示しています。

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

本論文は、真の事後分布が既知で記憶化が不可能な「ベイズ風洞」と呼ばれる制御環境を構築し、トランスフォーマーがアーキテクチャの幾何学的設計(残差ストリーム、フィードフォワードネットワーク、アテンションの役割分担)によって厳密にベイズ推論を実現することを示し、これが平坦なアーキテクチャとの決定的な違いであることを明らかにした。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

本論文は、クロスエントロピー損失による勾配降下法がアテンションスコアと値ベクトルを共進化的に更新するメカニズムを解析し、これが変分推論的な EM 手順に相当する動的過程を通じて、トランスフォーマーがベイズ推論を実行するための低次元多様体を形成することを明らかにしています。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

本論文は、小規模な「風洞」設定で確立されたベイズ推論の幾何学的基盤(低次元多様体や確率的エントロピーと相関する軸)が、Pythia や Llama-3 などの大規模言語モデルにおいても保存されており、不確実性の読み取りに寄与しているが、単一の層への介入だけでベイズ的な挙動が決定的に阻害されるわけではないことを示しています。

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

本論文は、企業向け大規模言語モデルにおけるデータ漏洩を防止するため、部門間でのインスタンス分離と厳格なコンテキスト所有権境界を実現する「セキュア・マルチテナント・アーキテクチャ(SMTA)」と、使用後の会話コンテキストを自動的に破棄する「バーン・アフター・ユース(BAU)」メカニズムを提案し、現実的な攻撃シナリオにおける高い防御成功率を実証したものである。

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

本論文は、モデル・コンテキスト・プロトコル(MCP)におけるツール呼び出しチェーンを悪用し、標準的なフィルタリングを回避しながら大規模言語モデルエージェントの計算リソースとコストを劇的に増幅させる、ステルス性の高い経済的 Denial-of-Service 攻撃手法を提案しています。

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

本論文は、従来の集約指標では見落とされがちな高リスク事例や多回対話におけるモデルの挙動を詳細に分析し、安全クリティカルなメンタルヘルス支援 AI の開発・評価・監査を可能にするオープンソースプラットフォーム「MHDash」を提案し、その有効性を示すものです。

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

本論文は、現実の多者対話における長期的な記憶能力を評価する初のベンチマーク「EverMemBench」を提案し、現在の LLM が多者間の帰属、時間的推論、および文脈に依存する記憶の認識において根本的な限界を抱えていることを明らかにしています。

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

この論文は、ロボットの駆動部故障時でもタスクを安全に完了させる「フェイル・アクティブ」な動作を実現するため、ロボットの現在の状態とタスク制約を条件とした拡散モデルベースの軌道生成手法「DEFT」を提案し、シミュレーションおよび実世界での実験を通じて、既存手法を大幅に上回る成功率と未知の故障に対するゼロショット汎化能力を実証しています。

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI