Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

オフロード環境における道路ネットワーク抽出の課題を解決するため、大規模なオフロードデータセット「WildRoad」を公開し、従来のノード中心アプローチの限界を克服する経路中心のフレームワーク「MaGRoad」を提案し、高い精度と高速推論を実現する研究です。

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

本論文は、LLM エージェントの事前学習後の適応を「エージェント側」と「ツール側」の 4 つのパラダイムに分類する統一的な枠組みを提示し、事後学習、記憶、スキルに関する研究を包括的にレビューするとともに、そのトレードオフや評価手法、および将来の課題を論じています。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

本論文は、エピソード横断的なトレーニングとリフレクションによるコンテキスト内方策適応という 2 つの主要な構成要素を備えたメタ強化学習フレームワーク「LaMer」を提案し、これにより言語エージェントが環境からのフィードバックに基づいて能動的に探索し、従来の強化学習ベースラインよりも Sokoban や Webshop などのタスクで顕著な性能向上と汎化能力を実現することを示しています。

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

この論文は、Google BigQuery 上の大規模データセットを用いた実験を通じて、推論モデルが非推論モデルと比較してデータ転送量を大幅に削減しつつ同等の精度を維持し、実行時間とクラウドコストの相関が弱いことを示し、Text-to-SQL 導入におけるコスト最適化の指針を提示しています。

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

本論文では、従来の SPICE とは異なり物理情報ニューラルネットワーク(PINN)を用いて回路の微分代数方程式を解く「NeuroSPICE」フレームワークを提案し、特に強誘電体メモリなどの非線形システムを含む新興デバイスのシミュレーションや設計最適化、逆問題への応用における独自性を示しています。

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

本論文は、電力系統の安全に不可欠な負荷予測において、従来の精度指標では捉えきれない過小予測リスクを定量化する新たな評価枠組みを提案し、気象情報の統合と制約付き最適化によって、過剰な予備容量を招く「偽の安全性」を排除しつつ信頼性の高い予測を実現する手法を確立したものである。

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本論文は、自動運転における生成ワールドモデルの進捗を測定し、視覚的リアリズム、軌道の妥当性、時間的整合性、制御性を包括的に評価する初のベンチマーク「DrivingGen」を提案し、既存モデルの課題とトレードオフを明らかにしたものである。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench は、IBM の自然会話フレームワークに基づき、LLM のトピックやタスクではなく会話の形式と構造(基本応答、RAG 活用、複雑な要求など)に焦点を当てた新しい評価ベンチマークを提案し、モデルの会話能力を理論的に評価する軽量かつ拡張可能な枠組みを提供する。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

この論文は、画像生成 AI の学習データ選定に広く用いられている「LAION-Aesthetics Predictor」を監査・追跡民族誌的に調査し、その評価基準が西洋中心の男性視点や帝国主義的視線を反映して特定の文化的・社会的バイアスを強化していることを明らかにし、AI 開発者に対し画一的な美の尺度から多様な評価へと転換するよう呼びかけています。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

本論文は、コンピュータ操作エージェントにおけるプロンプト注入攻撃を防ぐために、信頼できるタスク計画と不審な環境観測を厳密に分離する「シングルショット計画」アーキテクチャを提案し、セキュリティと実用性を両立させることを実証しています。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

本論文は、2024 年パリオリンピックで中国代表チームの歴史的なメダル獲得に貢献し、構造化されていないボクシングの試合映像を戦略的知能へ変換する閉ループ AI 最適化システム「BoxMind」を提案・実証したものである。

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

本論文は、観光客と地元住民など異なるシナリオ間の移動パターンを捉え、その競合を解決するために、シナリオ固有の多視点分離ハイパーグラフとパラメータ分割メカニズムを導入した「MSAHG」と呼ばれる次なる POI 推薦フレームワークを提案し、実データによる実験で既存手法を上回る性能を実証したものである。

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench は、開発者のテレメトリデータに基づき 6 つのプログラミング言語と 6 つのタスクカテゴリで構成された大規模言語モデルのコード生成能力を、機能性や実用性などの多角的な観点から評価する、生態学的妥当性と詳細な診断機能を備えた新しいベンチマークです。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

本論文は、マルチエージェントシステムの設計と評価を革新するため、全体最適化された関数呼び出し強化学習フレームワーク「MAS-Orchestra」と、タスク構造に基づく厳密なベンチマーク「MASBENCH」を提案し、タスク特性に応じたマルチエージェントの真の価値と効率性を明らかにするものです。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

この論文は、畳み込みニューラルネットワーク(CNN)のプーリング層やストライドが 1 より大きい層におけるデータ量減少によるハードウェア利用率の低下を解消し、信号のインターリーブやハードウェアユニットの共有、適切な並列化によって MobileNet などの複雑な CNN を単一の FPGA 上で高スループットかつ高効率に推論できる、データレートに配慮した連続フロー型アーキテクチャを提案するものである。

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG