cs.AI 件の論文 | Gist.Science

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

この論文は、推論タスクにおける中間トークンを「思考の痕跡」や「思考」として擬人化することは、モデルの本質を誤解させ、研究の質を低下させる危険な行為であるとして、その表現を避けるよう学界に呼びかけています。

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

この論文は、成人を対象とした AI 生成の非同意性画像（ディープフェイクポルノ）を容易に作成可能にする「悪意ある技術生態系」の存在を指摘し、NIST の報告書に基づく現在のガバナンス手法がその生態系を効果的に規制できていないことと、その背景にある誤った前提を明らかにする survivor-centered（生存者中心）のアプローチを採った研究です。

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

本論文は、分散機械学習のパラダイムである連合学習のアーキテクチャ、ライフサイクル、非 IID データや通信オーバーヘッドといった技術的課題、プライバシー保護技術、および将来の研究方向性を含む包括的な概要を提供する調査論文である。

Ratun Rahman2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本論文は、PDF や Web ページなどに埋め込まれた複雑な構造を持つ人間中心の表（HCT）に対する自然言語での質問応答を評価するための大規模ベンチマーク「HCT-QA」を提案し、その構成と 25 種類の LLM および 9 種類の VLM による性能評価、ファインチューニングによる大幅な精度向上を実証しています。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

本論文は、ボルツマン方程式の非線形衝突演算子を効率的に近似し、解像度に依存しない学習やゼロショット超解像を可能にする「FourierSpecNet」と呼ばれる、フーリエスペクトル法と深層学習を融合させた新しいハイブリッド枠組みを提案し、その精度と計算コストの削減効果を検証したものである。

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

RM-R1: Reward Modeling as Reasoning

この論文は、報酬モデルを推論タスクとして再定義し、高品質な推論チェーンの蒸留と検証可能な報酬による強化学習を通じて、より解釈性が高く高性能な「推論型報酬モデル（ReasRMs）」の一種である RM-R1 を提案し、既存の巨大モデルやプロプライエタリモデルを上回る性能を実証したものである。

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

この論文は、178 のベンチマークを SDLC（ソフトウェア開発ライフサイクル）の観点から体系的に分析し、実装フェーズへの偏りやデータ汚染対策の欠如といった課題を明らかにするとともに、CodeLLM とエージェントの実用性向上に向けた今後の研究方向性を示唆しています。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術（線形アテンションや自己教師あり学習）を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

この論文は、推論時の活性化制御（アクティベーション・ステアリング）技術、特に kNN ベースの条件付き手法「K-CAST」を導入することで、大規模言語モデルが内容の妥当性と論理的妥当性を混同するバイアスを軽減し、形式論理的推論の精度を最大 15% 向上させることを実証しています。

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

本論文は、環境・社会・ガバナンス（ESG）およびサステナビリティ分野における大規模言語モデル（LLM）の能力を評価・強化するための包括的なベンチマーク「ESGenius」を提案し、専門家の検証を受けた 1,136 問の質問と 231 件の基礎文書からなるコーパスを用いた評価により、ゼロショット設定では限界があるものの、信頼性の高い情報源に基づく検索拡張生成（RAG）手法を適用することでモデルの性能が大幅に向上することを示しています。

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本論文は、データレイクから洞察を得るための複雑なデータ処理パイプラインの設計と実行を評価する新しいベンチマーク「KramaBench」を提案し、現在の AI システムが個々のタスクや草案の生成では一定の成果を収めるものの、実用的なエンドツーエンドのパイプラインを構築する能力には依然として大きな課題があることを明らかにしています。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

← 前へ次へ →

cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

RM-R1: Reward Modeling as Reasoning

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Maximizing Asynchronicity in Event-based Neural Networks

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

ContextBench: Modifying Contexts for Targeted Latent Activation

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Iterative Quantum Feature Maps

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Bridging MOOCs, Smart Teaching, and AI: A Decade of Evolution Toward a Unified Pedagogy

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis