Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

この論文は、Google BigQuery 上の大規模データセットを用いた実験を通じて、推論モデルが非推論モデルと比較してデータ転送量を大幅に削減しつつ同等の精度を維持し、実行時間とクラウドコストの相関が弱いことを示し、Text-to-SQL 導入におけるコスト最適化の指針を提示しています。

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

本論文では、従来の SPICE とは異なり物理情報ニューラルネットワーク(PINN)を用いて回路の微分代数方程式を解く「NeuroSPICE」フレームワークを提案し、特に強誘電体メモリなどの非線形システムを含む新興デバイスのシミュレーションや設計最適化、逆問題への応用における独自性を示しています。

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

本論文は、電力系統の安全に不可欠な負荷予測において、従来の精度指標では捉えきれない過小予測リスクを定量化する新たな評価枠組みを提案し、気象情報の統合と制約付き最適化によって、過剰な予備容量を招く「偽の安全性」を排除しつつ信頼性の高い予測を実現する手法を確立したものである。

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本論文は、自動運転における生成ワールドモデルの進捗を測定し、視覚的リアリズム、軌道の妥当性、時間的整合性、制御性を包括的に評価する初のベンチマーク「DrivingGen」を提案し、既存モデルの課題とトレードオフを明らかにしたものである。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench は、IBM の自然会話フレームワークに基づき、LLM のトピックやタスクではなく会話の形式と構造(基本応答、RAG 活用、複雑な要求など)に焦点を当てた新しい評価ベンチマークを提案し、モデルの会話能力を理論的に評価する軽量かつ拡張可能な枠組みを提供する。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

この論文は、画像生成 AI の学習データ選定に広く用いられている「LAION-Aesthetics Predictor」を監査・追跡民族誌的に調査し、その評価基準が西洋中心の男性視点や帝国主義的視線を反映して特定の文化的・社会的バイアスを強化していることを明らかにし、AI 開発者に対し画一的な美の尺度から多様な評価へと転換するよう呼びかけています。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

本論文は、コンピュータ操作エージェントにおけるプロンプト注入攻撃を防ぐために、信頼できるタスク計画と不審な環境観測を厳密に分離する「シングルショット計画」アーキテクチャを提案し、セキュリティと実用性を両立させることを実証しています。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

本論文は、2024 年パリオリンピックで中国代表チームの歴史的なメダル獲得に貢献し、構造化されていないボクシングの試合映像を戦略的知能へ変換する閉ループ AI 最適化システム「BoxMind」を提案・実証したものである。

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

本論文は、観光客と地元住民など異なるシナリオ間の移動パターンを捉え、その競合を解決するために、シナリオ固有の多視点分離ハイパーグラフとパラメータ分割メカニズムを導入した「MSAHG」と呼ばれる次なる POI 推薦フレームワークを提案し、実データによる実験で既存手法を上回る性能を実証したものである。

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench は、開発者のテレメトリデータに基づき 6 つのプログラミング言語と 6 つのタスクカテゴリで構成された大規模言語モデルのコード生成能力を、機能性や実用性などの多角的な観点から評価する、生態学的妥当性と詳細な診断機能を備えた新しいベンチマークです。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

本論文は、マルチエージェントシステムの設計と評価を革新するため、全体最適化された関数呼び出し強化学習フレームワーク「MAS-Orchestra」と、タスク構造に基づく厳密なベンチマーク「MASBENCH」を提案し、タスク特性に応じたマルチエージェントの真の価値と効率性を明らかにするものです。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

この論文は、畳み込みニューラルネットワーク(CNN)のプーリング層やストライドが 1 より大きい層におけるデータ量減少によるハードウェア利用率の低下を解消し、信号のインターリーブやハードウェアユニットの共有、適切な並列化によって MobileNet などの複雑な CNN を単一の FPGA 上で高スループットかつ高効率に推論できる、データレートに配慮した連続フロー型アーキテクチャを提案するものである。

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

本論文は、瞬間速度ではなく平均速度の視点を導入し、キャッシュされたヤコビ行列 - ベクトル積を活用して局所誤差の蓄積を抑制するトレーニング不要の「MeanCache」フレームワークを提案し、FLUX.1 や HunyuanVideo などの大規模生成モデルにおいて、画質を維持しつつ最大 4.56 倍の推論高速化を実現することを示しています。

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M(リアルタイム整合報酬モデル)」という軽量フレームワークを提案しています。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs