cs.AI 件の論文 | Gist.Science

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

この論文は、単発の質問応答から複雑な対話型エージェントへの移行に伴う不確実性定量化（UQ）の必要性を指摘し、そのための包括的な定式化、エージェント特有の 4 つの技術的課題、および将来の研究方向性を提示する枠組みを提案しています。

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

この論文は、静的な予測に対する従来の説明可能性手法が自律的なエージェント AI の行動軌跡の診断には不向きであり、代わりに実行トレースに基づく評価が失敗の特定や状態管理の重要性を明らかにするため、エージェントシステムには軌跡レベルの説明可能性への転換が必要であることを示しています。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

この論文は、LLM の交渉能力を向上させるために、多様なシナリオを網羅する新しいベンチマーク「AgoraBench」、経済的根拠に基づいた人間と整合する評価指標、そして人間の選好に即した学習パイプラインを提案し、これにより LLM がより戦略的で対戦相手への意識の高い交渉を実現できることを示しています。

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

この論文は、737 人の参加者による 20 件の実験を通じて、AI による指示ではパフォーマンスが低下するが人間による指示が効果的であり、特に人間が指示を与え AI が評価を行うハイブリッド体制が最善であることを示しています。

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

本論文は、強化学習を用いて大規模言語モデルの適応に向けた最適なデータレシピを自動生成する「DataChef」を提案し、人間が手動で設計したレシピと同等、あるいはそれ以上の性能を達成したことを示しています。

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

この論文は、単一ターン評価の限界を克服し、会話全体のリスクを LLM を使わずに代理層で算出する「ピーク＋蓄積」スコアリング手法を提案し、多ターン攻撃検出において高い精度を実現したことを報告するものです。

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

この論文は、需要の断続性や変動性、予測期間に伴う性能低下といった複雑なビジネス環境において、予測モデルの安定した選択を可能にする「AHSIV」と呼ばれる適応型フレームワークを提案し、その有効性を複数の実データセットで実証したものです。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

本論文は、OpenReview の査読質問から構築した報酬モデル「IntelliReward」と強化学習手法を用いて、証拠に基づき深い洞察を持つ高品質な研究質問を生成するモデル「IntelliAsk」を開発し、その汎用的な推論・執筆能力の向上を実証したものである。

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

本論文は、推論に伴う再構成コストに依存せず、局所的な意味的変化のみで計算量が制限される決定論的セマンティック状態基盤「Compute ICE-AGE」の実装と、大規模ノード数における不変な計算効率を実証した結果を報告しています。

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

この論文は、分散学習における LoRA の集約誤差と分解ドリフトを解消し、通信オーバーヘッドを最大 2041 倍削減しながら精度を向上させるため、単一の低ランク行列のグラム行列を集約し、プロクラステス法で整合性を保つ「FLoRG」という新しい連合学習フレームワークを提案しています。

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

この論文は、探索を強化し、メモリ利用時と非利用時の両方で堅牢な性能を発揮するハイブリッド強化学習フレームワーク「EMPO²」を提案し、ScienceWorld や WebShop などのタスクで既存手法を大幅に上回る成果と、パラメータ更新なしでの新規タスク適応能力を実証しています。

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

この論文は、マルチモーダル LLM のモダリティ崩壊を情報理論的な「ミスマッチ復号」として定式化し、デコーダのスコアリング規則と学習目的がアクセス可能な情報量を決定し、エンコーダの調整や投影層よりも決定的なボトルネックであることを示しています。

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

この論文は、AI エージェントの開発が米国の労働市場全体を代表するものではなくプログラミング中心に偏っていることを実証し、社会的に重要かつ技術的に困難な作業をより適切に捉えるベンチマーク設計のための 3 つの原則（網羅性、現実性、詳細な評価）を提案しています。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

← 前へ次へ →

cs.AI