cs.SE 件の論文 | Gist.Science

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

本論文は、LLM 駆動の専門エージェントを用いて CLI ツールや Web アプリなどの実世界 GUI 環境における AI エージェントのテストを完全自動化し、既存手法を上回る精度でバグを検出する新しいフレームワーク「SpecOps」を提案するものである。

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu ZhangThu, 12 Ma💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

従来の高コストなソフトウェア検証から、システムが少数の要因に支配される「影響の希薄性」を利用したモデルフリーの探索手法「EZR」への転換を提案し、わずか 32 回の試行でピーク性能の 90% を達成する効率的なアプローチを提示しています。

Tim Menzies, Kishan Kumar GangulyThu, 12 Ma💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

この論文は、コードプロパティグラフを用いたグラフ畳み込みネットワーク（GCN）モデルを開発し、静的解析レポートの誤検知（False Positive）を高精度に予測することで、開発者の負担軽減とツールへの信頼性向上を実現したことを報告しています。

Tom Ohlmer, Michael Schlichtig, Eric BoddenThu, 12 Ma💻 cs

QuantumX: an experience for the consolidation of Quantum Computing and Quantum Software Engineering as an emerging discipline

本論文は、2025 年の JISBD 会議内で開催された「QuantumX」トラックの概要を報告し、量子コンピューティングとソフトウェア工学の融合における研究動向、共通課題、および将来の展望を体系的にまとめたものである。

Juan M. Murillo, Ignacio García Rodríguez de Guzmán, Enrique Moguel, Javier Romero-Álvarez, Jaime Alvarado-Valiente, Álvaro M. Aparicio-Morales, Jose Garcia-Alonso, Ana Díaz Muñoz, Eduardo Fernández-Medina, Francisco Chicano, Carlos Canal, José Daniel Viqueira, Sebastián Villarroya, Eduardo Gutiérrez, Adrián Romero-Flores, Alfonso E. Márquez-Chamorro, Antonio Ruiz-Cortes, Cyrille YetuYetu Kesiku, Pedro Sánchez, Diego Alonso Cáceres, Lidia Sánchez-González, Fernando PlouThu, 12 Ma💻 cs

ESG Reporting Lifecycle Management with Large Language Models and AI Agents

本論文は、構造化されていないデータや複雑な要件といった課題を解決するため、複数の AI エージェントを活用して ESG 報告のライフサイクルを動的かつ適応的なシステムへと変革する新しいフレームワークを提案し、その技術要件とアーキテクチャを定義しています。

Thong Hoang, Mykhailo Klymenko, Xiwei Xu, Shidong Pan, Yi Ding, Xushuo Tang, Zhengyi Yang, Jieke Shi, David LoThu, 12 Ma💻 cs

From Education to Evidence: A Collaborative Practice Research Platform for AI-Integrated Agile Development

この論文は、急速に進化する生成 AI やアジャイル開発の文脈において、学術研究と実務のギャップを埋め、実践的に有用なエビデンスを効率的に生成するための、教育と実践を融合させた協働研究プラットフォームの枠組みとその初期成果を提示しています。

Tobias Geger, Andreas Rausch, Ina Schiering, Frauke Stenzel, Stefan WittekThu, 12 Ma💻 cs

Packaging Jupyter notebooks as installable desktop apps using LabConstrictor

LabConstrictor は、DevOps 知識が不要な GitHub ベースの CI/CD パイプラインを活用して Jupyter ノートブックをワンクリックでインストール可能なデスクトップアプリケーションに変換し、生命科学分野における研究ソフトウェアの配布・導入・再利用の障壁を解消する。

Iván Hidalgo-Cenalmor, Marcela Xiomara Rivera Pineda, Bruno M. Saraiva, Ricardo Henriques, Guillaume JacquemetThu, 12 Ma🧬 q-bio

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

この論文は、ドメイン専門知識の暗黙的・流動的な性質に適合させるため、エージェントを構造化された対話を通じて段階的に育成し、対話から知識を構造化資産として凝縮する「Nurture-First Development（NFD）」という新たなパラダイムを提唱しています。

Linghao ZhangThu, 12 Ma🤖 cs.AI

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

本論文は、学生チームのソフトウェア開発プロジェクトを対象とした調査研究を通じて、開発者の気質や状況などの要因がテキストメッセージの感情評価に与える影響が限定的であり、評価のばらつきは主にメッセージ自体の曖昧さに起因することを明らかにし、感情分析の解釈には注意が必要であると結論付けています。

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt SchneiderThu, 12 Ma💻 cs

STADA: Specification-based Testing for Autonomous Driving Agents

本論文は、時相論理（LTLf）で記述された形式仕様に基づいて自律走行エージェントのテストシナリオを体系的に生成するフレームワーク「STADA」を提案し、既存手法と比較してより高いカバレッジを達成しつつシミュレーション回数を大幅に削減できることを示しています。

Joy Saha, Trey Woodlief, Sebastian Elbaum, Matthew B. DwyerThu, 12 Ma💻 cs

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

この論文は、CVE データベースに基づき大規模言語モデル（LLM）が安全なコードと脆弱なコードを区別する能力を測定する新しいベンチマーク「TOSSS」を提案し、14 種類のモデルを C/C++ および Java で評価した結果、セキュリティスコアが 0.48 から 0.89 の範囲に分布することを示しています。

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos WensveenThu, 12 Ma🤖 cs.LG

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

本論文は、AI（機械学習や自然言語処理）が要件管理からコード生成・テストまでの業務を自動化し、アジャイル開発の効率化とソフトウェア工学におけるイノベーションを促進する重要な触媒であることを、文献レビューと実証調査を通じて明らかにしています。

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-CisnerosThu, 12 Ma🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

この論文は、178 のベンチマークを SDLC（ソフトウェア開発ライフサイクル）の観点から体系的に分析し、実装フェーズへの偏りやデータ汚染対策の欠如といった課題を明らかにするとともに、CodeLLM とエージェントの実用性向上に向けた今後の研究方向性を示唆しています。

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin ShiMon, 09 Ma🤖 cs.AI

Systems of Twinned Systems: A Systematic Literature Review

本論文は、システム・オブ・システムズとデジタルツインの両方のパラダイムを統合する「ツインシステムのシステム」に関する 2,500 件以上の文献から 80 件を抽出して詳細に調査し、既存の理論と互換性のある分類枠組みを導き出した体系的文献レビューである。

Feyi Adesanya, Kanan Castro Silva, Valdemar V. Graciano Neto, Istvan DavidMon, 09 Ma💻 cs

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

本論文は、ROS ベースのロボットシステムの複雑な開発プロセスを管理し、システム間の意味的整合性と構造的な追跡可能性を確保するため、MBSE の手法と SysML メタモデル「MeROS」を V 字モデルに統合した体系的な開発手法を提案するものである。

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro KushnirMon, 09 Ma💻 cs

UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval

本論文は、自然言語とコードのハイブリッド検索における意味理解の不足や言語間一般化の課題を解決するため、多視点教師あり対比学習と表現分布の整合性学習を導入した自己教師ありフレームワーク「UniCoR」を提案し、既存モデルを大幅に上回る性能を実現したことを報告するものです。

Yang Yang, Li Kuang, Jiakun Liu, Zhongxin Liu, Yingjie Xia, David LoMon, 09 Ma💻 cs

A Structured Approach to Safety Case Construction for AI Systems

本論文は、航空や原子力などの従来の手法では捉えきれない現代の AI システムの動的な特性に対応するため、AI 固有の主張・論証・証拠の分類体系を確立し、生成 AI や最先端 AI の安全ケース構築を体系的かつ再利用可能にするためのテンプレートとパターンを提案しています。

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel BriandMon, 09 Ma💻 cs

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

本論文は、従来のコンテナ方式に比べてディスク使用量を約 5%、環境準備時間を約 25% に削減しながらも同等の評価性能を達成する、軽量なコンテナフリーの強化学習環境「SWE-MiniSandbox」を提案し、大規模なソフトウェアエンジニアリングエージェントの訓練を可能にするものです。

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan ZhaoMon, 09 Ma🤖 cs.AI

The Limits of Long-Context Reasoning in Automated Bug Fixing

この論文は、現在の大規模言語モデルがアジェンティックワークフローを通じてコードベースのデバッグを成功させる際、実際には長文脈推論ではなくタスク分解による短文脈ステップに依存しており、64k トークンという真の長文脈下では性能が著しく低下することを示し、既存のベンチマークが長文脈推論能力を適切に評価していないことを明らかにしています。

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish ThakkerMon, 09 Ma🤖 cs.LG

Theory of Code Space: Do Code Agents Understand Software Architecture?

本論文は、AI コードエージェントがコードベースの探索中に一貫したアーキテクチャ理解を維持できるかを評価する新たなベンチマーク「Theory of Code Space (ToCS)」を提案し、能動的探索の有効性や構造化された信念マップの保持がモデルによって異なること、そしてより大規模なモデルでも信念の崩壊が発生し得ることを明らかにしています。

Grigory SapunovMon, 09 Ma🤖 cs.AI

← 前へ次へ →