Process-Centric Analysis of Agentic Software Systems

この論文は、エージェント型ソフトウェアシステムの意思決定過程を構造的に解析する「Graphectory」を導入し、その分析に基づいて実行中のエージェントをリアルタイムで監視・介入させることで、問題解決率の向上と実行経路の効率化を実現する手法を提案しています。

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench は、開発者のテレメトリデータに基づき 6 つのプログラミング言語と 6 つのタスクカテゴリで構成された大規模言語モデルのコード生成能力を、機能性や実用性などの多角的な観点から評価する、生態学的妥当性と詳細な診断機能を備えた新しいベンチマークです。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

この論文は、自然言語処理を用いて要件定義から構造的ネットワークを抽出し、分子統合タスクを用いた実験により、そのスペクトル指標が統合工数を 0.95 以上の相関で予測できることを実証し、要件段階の複雑性評価における新たな手法を確立したものである。

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

この論文は、技術文書の階層構造を活用した階層的検索と自動テストケース生成による自己デバッグを組み合わせたエージェント型フレームワーク「GraphSkill」を提案し、複雑なグラフ推論タスクにおけるコード生成の精度向上と推論コストの削減を実現するものです。

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

本研究は、研究用コードの実行に必要な複雑な環境構築を評価する新たなベンチマーク「ResearchEnvBench」を提案し、現状の最先端エージェントが依存関係の解決やバージョン管理において大きな課題を抱えていることを明らかにしました。

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

この論文は、40 のオープンソースリポジトリから収集した 13,602 の事例と開発者への調査に基づき、エージェント型 AI システムにおける故障のタイプ、症状、根本原因を体系的に分類する包括的な分類体系を提案し、故障の伝播パターンを明らかにしたものである。

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

本論文は、自動脆弱性修復(AVR)システムが従来のテストでは「正しい」と判定されるパッチの多くが、開発者が追加したより厳密なテスト(PoC+\text{PoC}^+)では失敗することを示すベンチマーク「PVBench」を構築し、AVR ツールの評価精度向上には根本原因の分析、仕様への準拠、開発者の意図の理解が不可欠であることを明らかにしています。

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

この論文は、ソフトウェアアーキテクチャ分野における小規模言語モデル(SLM)の推論能力を多面的に評価し、パラメータ数やファインチューニング、プッティング手法がアーキテクチャ判断記録の生成に与える影響を明らかにすることで、持続可能なローカルホスト型アーキテクチャ支援ツールの導入基盤を確立しています。

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

この論文は、Stack Overflow のソーシャルコンテキスト埋め込みを活用した学習順序付け(LTR)ベースのハイブリッドシステムを提案し、開発者がソフトウェアバグの解決策を効率的に見つけられるよう、10 件の回答で約 78% の精度で最適な解決策を推薦する手法を確立したことを報告しています。

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

この論文は、4 つの言語モデルと 5 つの提示条件を用いた実証研究により、展開制約を課しても LLM が生成する引用の存在率は 47.5% 以下に留まり、形式は整っていても事実無根の引用が多数含まれることを明らかにし、技術文献レビューやツールパイプラインへの導入前に事後検証の必要性を説いています。

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

本論文は、コードグラフと自動クエリ改良、そして生成されたテストの実行フィードバックを活用してバグ再現テストを生成するエージェント「Echo」を提案し、SWT-Bench Verified においてオープンソース手法として最高水準の 66.28% の成功率を達成したことを報告しています。

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

本論文は、リモートおよびハイブリッド環境における回帰テストが、非同期協働を支援するための文書化、自動化、ツール統合、および標準化された報告メカニズムを通じて、人間の協働とデジタルインフラの相互作用によって形成される社会技術的実践として進化していることを、20 名のソフトウェア専門家への定性インタビューに基づいて明らかにしています。

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

この論文は、500 以上のモデルを用いた大規模な実証研究を通じて、コード表現がパッチの正しさを判定する際に決定的な役割を果たし、特に既存研究で十分に探求されていなかったグラフベースの表現が他の手法を凌駕して高い精度を達成することを明らかにしています。

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

本論文は、LLM エージェントが意図せず機密データを過剰に暴露する「データ過剰暴露(DOE)」という新たなリスクを特定し、プログラム解析と意味推論を組み合わせた自動化フレームワーク「AgentRaft」を提案することで、大規模な実世界ツール環境において高い精度でプライバシー侵害を検出可能にしたことを報告しています。

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

本論文は、API の進化に伴うコードの移行タスクを、構造化された知識グラフを用いた経路検索と経路に基づくコード生成の 2 段階に分解することで、大規模言語モデルの限界を克服し、移行精度と実行成功率を大幅に向上させるフレームワーク「KCoEvo」を提案しています。

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

この論文は、コード難読化がプログラムの出力予測タスクにおける人間の理解に与える影響を調査し、難読化が一般的に処理時間と誤答率を増加させるものの、その効果は言語(JavaScript と Python)や難読化の強度によって非単調に変化し、経験豊富なプログラマでも言語固有の親和性に強く依存することを明らかにした。

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

ブラジルとポルトガルのソフトウェア企業で AI 開発に従事する 4 チームを対象としたグラウンデッド・セオリーに基づく研究は、多様なチームがバイアスの特定や共感的な開発、システム的差別への対応などを通じて AI システムの公平性を高める上で重要な役割を果たしていることを明らかにしています。

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs