cs.AI 件の論文 | Gist.Science

Why Human Guidance Matters in Collaborative Vibe Coding

この論文は、737 人の参加者による 20 件の実験を通じて、AI による指示ではパフォーマンスが低下するが人間による指示が効果的であり、特に人間が指示を与え AI が評価を行うハイブリッド体制が最善であることを示しています。

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

本論文は、強化学習を用いて大規模言語モデルの適応に向けた最適なデータレシピを自動生成する「DataChef」を提案し、人間が手動で設計したレシピと同等、あるいはそれ以上の性能を達成したことを示しています。

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

この論文は、単一ターン評価の限界を克服し、会話全体のリスクを LLM を使わずに代理層で算出する「ピーク＋蓄積」スコアリング手法を提案し、多ターン攻撃検出において高い精度を実現したことを報告するものです。

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

本論文は、機械学習における「グランドトゥルース」の概念が人間の不一致を単なるノイズとして誤って扱っている「コンセンサスの罠」を批判的に分析し、多様な人間の経験を反映するプラリスティックなアノテーション基盤の構築を提唱するものである。

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

この論文は、需要の断続性や変動性、予測期間に伴う性能低下といった複雑なビジネス環境において、予測モデルの安定した選択を可能にする「AHSIV」と呼ばれる適応型フレームワークを提案し、その有効性を複数の実データセットで実証したものです。

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

本論文は、OpenReview の査読質問から構築した報酬モデル「IntelliReward」と強化学習手法を用いて、証拠に基づき深い洞察を持つ高品質な研究質問を生成するモデル「IntelliAsk」を開発し、その汎用的な推論・執筆能力の向上を実証したものである。

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

本論文は、推論に伴う再構成コストに依存せず、局所的な意味的変化のみで計算量が制限される決定論的セマンティック状態基盤「Compute ICE-AGE」の実装と、大規模ノード数における不変な計算効率を実証した結果を報告しています。

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

この論文は、分散学習における LoRA の集約誤差と分解ドリフトを解消し、通信オーバーヘッドを最大 2041 倍削減しながら精度を向上させるため、単一の低ランク行列のグラム行列を集約し、プロクラステス法で整合性を保つ「FLoRG」という新しい連合学習フレームワークを提案しています。

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

本論文は、音声 LLM が ASR と LLM のカスケード構成と本質的に同等の挙動を示すことを示し、多くの実用ケースでは高コストなカスケードに過ぎず、特に雑音条件下では性能が劣ることを実証しています。

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

この論文は、探索を強化し、メモリ利用時と非利用時の両方で堅牢な性能を発揮するハイブリッド強化学習フレームワーク「EMPO²」を提案し、ScienceWorld や WebShop などのタスクで既存手法を大幅に上回る成果と、パラメータ更新なしでの新規タスク適応能力を実証しています。

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

この論文は、マルチモーダル LLM のモダリティ崩壊を情報理論的な「ミスマッチ復号」として定式化し、デコーダのスコアリング規則と学習目的がアクセス可能な情報量を決定し、エンコーダの調整や投影層よりも決定的なボトルネックであることを示しています。

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

この論文は、モバイルエージェントのハイブリッド能力推論における課題を解決するため、4 つの専門家を備えた「CoME」という新しいアーキテクチャと、段階的な学習戦略および情報利得に基づく DPO を提案し、既存手法を上回る性能を達成したことを示しています。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

この論文は、AI エージェントの開発が米国の労働市場全体を代表するものではなくプログラミング中心に偏っていることを実証し、社会的に重要かつ技術的に困難な作業をより適切に捉えるベンチマーク設計のための 3 つの原則（網羅性、現実性、詳細な評価）を提案しています。

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

本論文は、希少なトレーニングデータによる予測の脆弱性と、信頼性の低いモダリティによる性能低下という課題を解決するため、階層的なマルチエキスパート検索と Dempster-Shafer 証拠理論に基づく信頼性認識融合戦略を組み合わせた「MERA」という新しいフレームワークを提案し、タンパク質の活性部位特定において最先端の性能を達成したことを報告しています。

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

本論文は、AI エージェントが共有アーティファクト上のユーザーの同時行動を解釈し適応する「CLEO」システムを提案し、デザイナーとの共創的協働において、作業の委任、指示、同時作業のいずれを選択すべきかを決定するモデルと設計指針を導出したものである。

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

この論文は、実際の部屋インパルス応答を用いてクリーン音声と残響音声を対で生成した新しいベンチマーク「Whisper-RIR-Mega」を提案し、5 つの Whisper モデルにおける残響が ASR の性能に及ぼす影響を評価したものです。

Mandip Goswami2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

この論文は、タンパク質の幾何学的な剛性を考慮した自己教師あり学習フレームワーク「RigidSSL」を提案し、分子動力学シミュレーションや構造データベースを活用した事前学習により、タンパク質設計の設計可能性や多様性、およびコンフォメーション集合の物理的現実性を大幅に向上させることを示しています。

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI

← 前へ次へ →

cs.AI