Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

この論文は、推論タスクにおける中間トークンを「思考の痕跡」や「思考」として擬人化することは、モデルの本質を誤解させ、研究の質を低下させる危険な行為であるとして、その表現を避けるよう学界に呼びかけています。

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

この論文は、成人を対象とした AI 生成の非同意性画像(ディープフェイクポルノ)を容易に作成可能にする「悪意ある技術生態系」の存在を指摘し、NIST の報告書に基づく現在のガバナンス手法がその生態系を効果的に規制できていないことと、その背景にある誤った前提を明らかにする survivor-centered(生存者中心)のアプローチを採った研究です。

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本論文は、PDF や Web ページなどに埋め込まれた複雑な構造を持つ人間中心の表(HCT)に対する自然言語での質問応答を評価するための大規模ベンチマーク「HCT-QA」を提案し、その構成と 25 種類の LLM および 9 種類の VLM による性能評価、ファインチューニングによる大幅な精度向上を実証しています。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

本論文は、ボルツマン方程式の非線形衝突演算子を効率的に近似し、解像度に依存しない学習やゼロショット超解像を可能にする「FourierSpecNet」と呼ばれる、フーリエスペクトル法と深層学習を融合させた新しいハイブリッド枠組みを提案し、その精度と計算コストの削減効果を検証したものである。

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

RM-R1: Reward Modeling as Reasoning

この論文は、報酬モデルを推論タスクとして再定義し、高品質な推論チェーンの蒸留と検証可能な報酬による強化学習を通じて、より解釈性が高く高性能な「推論型報酬モデル(ReasRMs)」の一種である RM-R1 を提案し、既存の巨大モデルやプロプライエタリモデルを上回る性能を実証したものである。

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

この論文は、178 のベンチマークを SDLC(ソフトウェア開発ライフサイクル)の観点から体系的に分析し、実装フェーズへの偏りやデータ汚染対策の欠如といった課題を明らかにするとともに、CodeLLM とエージェントの実用性向上に向けた今後の研究方向性を示唆しています。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

この論文は、推論時の活性化制御(アクティベーション・ステアリング)技術、特に kNN ベースの条件付き手法「K-CAST」を導入することで、大規模言語モデルが内容の妥当性と論理的妥当性を混同するバイアスを軽減し、形式論理的推論の精度を最大 15% 向上させることを実証しています。

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本論文は、環境・社会・ガバナンス(ESG)およびサステナビリティ分野における大規模言語モデル(LLM)の能力を評価・強化するための包括的なベンチマーク「ESGenius」を提案し、専門家の検証を受けた 1,136 問の質問と 231 件の基礎文書からなるコーパスを用いた評価により、ゼロショット設定では限界があるものの、信頼性の高い情報源に基づく検索拡張生成(RAG)手法を適用することでモデルの性能が大幅に向上することを示しています。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本論文は、データレイクから洞察を得るための複雑なデータ処理パイプラインの設計と実行を評価する新しいベンチマーク「KramaBench」を提案し、現在の AI システムが個々のタスクや草案の生成では一定の成果を収めるものの、実用的なエンドツーエンドのパイプラインを構築する能力には依然として大きな課題があることを明らかにしています。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

本論文は、視覚的に極めて類似した図形から正解を識別する高度な推論能力を評価する新たなベンチマーク「VisioMath」を提案し、現在の多モーダルモデルが画像とテキストの整合性不足により類似図形の比較推論で失敗しやすいことを明らかにするとともに、アライメント指向の戦略による性能向上を実証しています。

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

この論文は、既存の倫理評価が過剰に単純化されたシナリオに依存している点を批判し、道徳的関連性の識別を含む多面的な枠組みを用いた実験を通じて、ノイズの多い情報から道徳的要素を見極める能力において現在のLLMが人間より劣る可能性を示唆し、AI の道徳的コンピテンス評価の再考を促すものである。

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

この論文は、言語モデルの特定の潜在特徴や動作を誘発する入力生成手法を「文脈修正」として定式化し、その能力と安全性への応用を評価するベンチマーク「ContextBench」を提案するとともに、LLM 支援や拡散モデルによる修正を加えた進化型プロンプト最適化(EPO)が、誘発効果と言語的流暢さのバランスにおいて最先端のパフォーマンスを達成することを示しています。

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

本論文は、大規模言語モデル(LLM)の重みを固定したまま、ユーザーの入力に応じてシステムプロンプトを適応的に調整する「Sysformer」というトランスフォーマーモデルを提案し、有害な入力への拒否率や安全な入力への対応精度を大幅に向上させ、高度な脱獄攻撃に対しても堅牢性を高めることを実証しています。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

本論文は、ノイズやハードウェア制約に直面する実用的な量子ハードウェアにおいて、変分パラメータの最適化を不要としつつ、浅い量子特徴マップを反復的に結合するハイブリッド量子古典フレームワーク「反復量子特徴マップ(IQFMs)」を提案し、量子畳み込みニューラルネットワークや古典的ニューラルネットワークと同等以上の性能を実現する手法を提示しています。

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

この論文は、工業製品の欠陥検出において、正規と異常の両方の分布を明示的にモデル化する「ExDD」フレームワークと、ドメイン固有のテキスト条件付き潜在拡散モデルによる合成データ生成を組み合わせることで、従来の単一クラス異常検出の限界を克服し、KSDD2 データセットで高い検出精度を達成したことを提案しています。

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI