SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments
本論文は、LLM 駆動の専門エージェントを用いて CLI ツールや Web アプリなどの実世界 GUI 環境における AI エージェントのテストを完全自動化し、既存手法を上回る精度でバグを検出する新しいフレームワーク「SpecOps」を提案するものである。
177 件の論文
本論文は、LLM 駆動の専門エージェントを用いて CLI ツールや Web アプリなどの実世界 GUI 環境における AI エージェントのテストを完全自動化し、既存手法を上回る精度でバグを検出する新しいフレームワーク「SpecOps」を提案するものである。
従来の高コストなソフトウェア検証から、システムが少数の要因に支配される「影響の希薄性」を利用したモデルフリーの探索手法「EZR」への転換を提案し、わずか 32 回の試行でピーク性能の 90% を達成する効率的なアプローチを提示しています。
この論文は、コードプロパティグラフを用いたグラフ畳み込みネットワーク(GCN)モデルを開発し、静的解析レポートの誤検知(False Positive)を高精度に予測することで、開発者の負担軽減とツールへの信頼性向上を実現したことを報告しています。
本論文は、2025 年の JISBD 会議内で開催された「QuantumX」トラックの概要を報告し、量子コンピューティングとソフトウェア工学の融合における研究動向、共通課題、および将来の展望を体系的にまとめたものである。
本論文は、構造化されていないデータや複雑な要件といった課題を解決するため、複数の AI エージェントを活用して ESG 報告のライフサイクルを動的かつ適応的なシステムへと変革する新しいフレームワークを提案し、その技術要件とアーキテクチャを定義しています。
この論文は、急速に進化する生成 AI やアジャイル開発の文脈において、学術研究と実務のギャップを埋め、実践的に有用なエビデンスを効率的に生成するための、教育と実践を融合させた協働研究プラットフォームの枠組みとその初期成果を提示しています。
LabConstrictor は、DevOps 知識が不要な GitHub ベースの CI/CD パイプラインを活用して Jupyter ノートブックをワンクリックでインストール可能なデスクトップアプリケーションに変換し、生命科学分野における研究ソフトウェアの配布・導入・再利用の障壁を解消する。
この論文は、ドメイン専門知識の暗黙的・流動的な性質に適合させるため、エージェントを構造化された対話を通じて段階的に育成し、対話から知識を構造化資産として凝縮する「Nurture-First Development(NFD)」という新たなパラダイムを提唱しています。
本論文は、学生チームのソフトウェア開発プロジェクトを対象とした調査研究を通じて、開発者の気質や状況などの要因がテキストメッセージの感情評価に与える影響が限定的であり、評価のばらつきは主にメッセージ自体の曖昧さに起因することを明らかにし、感情分析の解釈には注意が必要であると結論付けています。
本論文は、時相論理(LTLf)で記述された形式仕様に基づいて自律走行エージェントのテストシナリオを体系的に生成するフレームワーク「STADA」を提案し、既存手法と比較してより高いカバレッジを達成しつつシミュレーション回数を大幅に削減できることを示しています。
この論文は、CVE データベースに基づき大規模言語モデル(LLM)が安全なコードと脆弱なコードを区別する能力を測定する新しいベンチマーク「TOSSS」を提案し、14 種類のモデルを C/C++ および Java で評価した結果、セキュリティスコアが 0.48 から 0.89 の範囲に分布することを示しています。
本論文は、AI(機械学習や自然言語処理)が要件管理からコード生成・テストまでの業務を自動化し、アジャイル開発の効率化とソフトウェア工学におけるイノベーションを促進する重要な触媒であることを、文献レビューと実証調査を通じて明らかにしています。
この論文は、178 のベンチマークを SDLC(ソフトウェア開発ライフサイクル)の観点から体系的に分析し、実装フェーズへの偏りやデータ汚染対策の欠如といった課題を明らかにするとともに、CodeLLM とエージェントの実用性向上に向けた今後の研究方向性を示唆しています。
本論文は、システム・オブ・システムズとデジタルツインの両方のパラダイムを統合する「ツインシステムのシステム」に関する 2,500 件以上の文献から 80 件を抽出して詳細に調査し、既存の理論と互換性のある分類枠組みを導き出した体系的文献レビューである。
本論文は、ROS ベースのロボットシステムの複雑な開発プロセスを管理し、システム間の意味的整合性と構造的な追跡可能性を確保するため、MBSE の手法と SysML メタモデル「MeROS」を V 字モデルに統合した体系的な開発手法を提案するものである。
本論文は、自然言語とコードのハイブリッド検索における意味理解の不足や言語間一般化の課題を解決するため、多視点教師あり対比学習と表現分布の整合性学習を導入した自己教師ありフレームワーク「UniCoR」を提案し、既存モデルを大幅に上回る性能を実現したことを報告するものです。
本論文は、航空や原子力などの従来の手法では捉えきれない現代の AI システムの動的な特性に対応するため、AI 固有の主張・論証・証拠の分類体系を確立し、生成 AI や最先端 AI の安全ケース構築を体系的かつ再利用可能にするためのテンプレートとパターンを提案しています。
本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。
この論文は、現在の大規模言語モデルがアジェンティックワークフローを通じてコードベースのデバッグを成功させる際、実際には長文脈推論ではなくタスク分解による短文脈ステップに依存しており、64k トークンという真の長文脈下では性能が著しく低下することを示し、既存のベンチマークが長文脈推論能力を適切に評価していないことを明らかにしています。
本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。