Process-Centric Analysis of Agentic Software Systems
この論文は、エージェント型ソフトウェアシステムの意思決定過程を構造的に解析する「Graphectory」を導入し、その分析に基づいて実行中のエージェントをリアルタイムで監視・介入させることで、問題解決率の向上と実行経路の効率化を実現する手法を提案しています。
173 件の論文
この論文は、エージェント型ソフトウェアシステムの意思決定過程を構造的に解析する「Graphectory」を導入し、その分析に基づいて実行中のエージェントをリアルタイムで監視・介入させることで、問題解決率の向上と実行経路の効率化を実現する手法を提案しています。
DevBench は、開発者のテレメトリデータに基づき 6 つのプログラミング言語と 6 つのタスクカテゴリで構成された大規模言語モデルのコード生成能力を、機能性や実用性などの多角的な観点から評価する、生態学的妥当性と詳細な診断機能を備えた新しいベンチマークです。
この論文は、自然言語処理を用いて要件定義から構造的ネットワークを抽出し、分子統合タスクを用いた実験により、そのスペクトル指標が統合工数を 0.95 以上の相関で予測できることを実証し、要件段階の複雑性評価における新たな手法を確立したものである。
この論文は、技術文書の階層構造を活用した階層的検索と自動テストケース生成による自己デバッグを組み合わせたエージェント型フレームワーク「GraphSkill」を提案し、複雑なグラフ推論タスクにおけるコード生成の精度向上と推論コストの削減を実現するものです。
本研究は、研究用コードの実行に必要な複雑な環境構築を評価する新たなベンチマーク「ResearchEnvBench」を提案し、現状の最先端エージェントが依存関係の解決やバージョン管理において大きな課題を抱えていることを明らかにしました。
この論文は、40 のオープンソースリポジトリから収集した 13,602 の事例と開発者への調査に基づき、エージェント型 AI システムにおける故障のタイプ、症状、根本原因を体系的に分類する包括的な分類体系を提案し、故障の伝播パターンを明らかにしたものである。
本論文は、自動脆弱性修復(AVR)システムが従来のテストでは「正しい」と判定されるパッチの多くが、開発者が追加したより厳密なテスト()では失敗することを示すベンチマーク「PVBench」を構築し、AVR ツールの評価精度向上には根本原因の分析、仕様への準拠、開発者の意図の理解が不可欠であることを明らかにしています。
この論文は、手動作成された変異の分析と管理を可能にする宣言的フレームワーク「Marauder」を提案し、変異表現の分類、変異代数学の定義、および損失のない変換パイプラインを通じて、手動変異実験の効率性と表現力を向上させる基盤を提供するものです。
この論文は、ソフトウェアアーキテクチャ分野における小規模言語モデル(SLM)の推論能力を多面的に評価し、パラメータ数やファインチューニング、プッティング手法がアーキテクチャ判断記録の生成に与える影響を明らかにすることで、持続可能なローカルホスト型アーキテクチャ支援ツールの導入基盤を確立しています。
この論文は、Stack Overflow のソーシャルコンテキスト埋め込みを活用した学習順序付け(LTR)ベースのハイブリッドシステムを提案し、開発者がソフトウェアバグの解決策を効率的に見つけられるよう、10 件の回答で約 78% の精度で最適な解決策を推薦する手法を確立したことを報告しています。
この論文は、4 つの言語モデルと 5 つの提示条件を用いた実証研究により、展開制約を課しても LLM が生成する引用の存在率は 47.5% 以下に留まり、形式は整っていても事実無根の引用が多数含まれることを明らかにし、技術文献レビューやツールパイプラインへの導入前に事後検証の必要性を説いています。
本論文は、コードグラフと自動クエリ改良、そして生成されたテストの実行フィードバックを活用してバグ再現テストを生成するエージェント「Echo」を提案し、SWT-Bench Verified においてオープンソース手法として最高水準の 66.28% の成功率を達成したことを報告しています。
本論文は、リモートおよびハイブリッド環境における回帰テストが、非同期協働を支援するための文書化、自動化、ツール統合、および標準化された報告メカニズムを通じて、人間の協働とデジタルインフラの相互作用によって形成される社会技術的実践として進化していることを、20 名のソフトウェア専門家への定性インタビューに基づいて明らかにしています。
この論文は、共感がソフトウェア工学教育において倫理的・反射的資質から構造化された設計実践へと進化しつつあることを示すシステマティックレビューを通じて、教育課程への体系的な統合の現状、効果、および課題を明らかにしています。
この論文は、500 以上のモデルを用いた大規模な実証研究を通じて、コード表現がパッチの正しさを判定する際に決定的な役割を果たし、特に既存研究で十分に探求されていなかったグラフベースの表現が他の手法を凌駕して高い精度を達成することを明らかにしています。
本論文は、LLM エージェントが意図せず機密データを過剰に暴露する「データ過剰暴露(DOE)」という新たなリスクを特定し、プログラム解析と意味推論を組み合わせた自動化フレームワーク「AgentRaft」を提案することで、大規模な実世界ツール環境において高い精度でプライバシー侵害を検出可能にしたことを報告しています。
本論文は、API の進化に伴うコードの移行タスクを、構造化された知識グラフを用いた経路検索と経路に基づくコード生成の 2 段階に分解することで、大規模言語モデルの限界を克服し、移行精度と実行成功率を大幅に向上させるフレームワーク「KCoEvo」を提案しています。
この論文は、コード難読化がプログラムの出力予測タスクにおける人間の理解に与える影響を調査し、難読化が一般的に処理時間と誤答率を増加させるものの、その効果は言語(JavaScript と Python)や難読化の強度によって非単調に変化し、経験豊富なプログラマでも言語固有の親和性に強く依存することを明らかにした。
ブラジルとポルトガルのソフトウェア企業で AI 開発に従事する 4 チームを対象としたグラウンデッド・セオリーに基づく研究は、多様なチームがバイアスの特定や共感的な開発、システム的差別への対応などを通じて AI システムの公平性を高める上で重要な役割を果たしていることを明らかにしています。
この論文は、IoT データと既存のビジネスプロセスイベントログの統合を可能にするツール「IOTEL」を提案し、その標準的な OCEL スキーマへの対応と実世界での有効性を示しています。