Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing
本論文は、Uppaal による確率的時間オートマトンの形式モデル化、検証、および抽象テストの具体化を通じて、分散ミドルウェア「CARE」の信頼性向上を可能にする手法を提示しています。
178 件の論文
本論文は、Uppaal による確率的時間オートマトンの形式モデル化、検証、および抽象テストの具体化を通じて、分散ミドルウェア「CARE」の信頼性向上を可能にする手法を提示しています。
本論文は、組織間ワークフローの設計と管理を支援し、リソースのボトルネックや実行時間の分析を通じて効率化を図るためのユーザーフレンドリーな Web ベースのツール「EasyRpl」を提案するものである。
本論文は、ユーザーレビューから得られる文脈を統合して自動実行エージェントがパフォーマンス問題の再現を試みる「RevPerf」というアプローチを提案し、Android アプリのパフォーマンス問題の自動再現において高い成功率を達成したことを示しています。
本論文は、116 のオープンソース Java システムを対象とした実証研究を通じて、コードスメルの相互作用が静的依存関係の分布に有意な変化をもたらすことを明らかにし、より精度の高いコードスメル検出やリファクタリング戦略の策定に貢献する知見を提供しています。
この論文は、メタモルフィックテストと役割分担型マルチエージェントシステムを活用して法解釈の難しさを克服し、特に複雑な米国税務コードの処理において先行モデルを上回る信頼性を実現する、LLM アジェンティックアプローチを提案するものである。
本論文は、401 のオープンソースリポジトリを対象とした大規模な実証研究を通じて、開発者が AI コーディングアシスタントに提供する「カーソルルール」の内容を分析し、プロジェクトの文脈を分類する包括的な分類体系を提案するとともに、その内容がプロジェクトの種類やプログラミング言語によってどのように変化するかを明らかにしています。
本論文では、テストケース優先順位付け(TCP)に関する 324 件の研究を体系的にレビューし、新しい評価指標と「アプローチコンビネータ」と呼ばれるアンサンブル手法を提案・実証評価した結果、既存手法を上回る性能と回帰テスト時間の短縮効果を確認したことを報告しています。
本論文は、従来の設計プラットフォームに存在するシステムレベルと部品レベルの設計の断絶を解消するため、ドキュメントや幾何データ、システムグラフを統合し、AI を活用して要件抽出やシステム構成の自動生成を行う「GenAI Workbench」という概念フレームワークを提案するものである。
本論文は、コードを実行せずに意味論的推論を行うための構造化された「半形式的推論」手法を提案し、パッチ等価性検証、欠陥局所化、コード質問応答の各タスクにおいて、従来の非構造化推論よりも高い精度を達成することを示しています。
本論文は、AI 支援開発の時代における信頼性の高いソフトウェア構築のために、人間の監督と自動分析を融合し、モジュールの認証とプロヴェナンスを確立する新たなアーキテクチャモデル「人間認証モジュールリポジトリ(HCMR)」を提案するものである。
本論文は、OpenCode を基盤とした新しい枠組みを用いて、コーディングエージェントがセキュリティやプライバシーなどの学習済み価値観と対立する環境圧力にさらされた際、システムプロンプトの明示的な制約を非対称的に逸脱する傾向(目標の漂移)を明らかにし、現在のアライメント手法が長期的な環境圧力下での明示的制約と学習済み価値観のバランスを保証する上で不十分であることを示しています。
既存のベンチマークが逐次コードに焦点を当てているのに対し、デッドロックや競合状態などの並行性特有の課題を評価できるよう、教科書由来の43問題と72のバリエーションから構成される新しいベンチマーク「CONCUR」を提案し、大規模言語モデルの並行コード生成能力を評価した。
本論文は、LLM エージェントの能力評価を静的なバグ修正から長期的なコード維持管理へと転換させるため、実世界の継続的インテグレーション(CI)ループに基づき、100 のタスクで構成される初のリポジトリレベルベンチマーク「SWE-CI」を提案するものです。
本論文では、大規模言語モデル(LLM)が人間レベルのリファクタリングを実行・選択できるかを検証するため、オープンソースの多ファイル変更から抽出したベンチマーク「CodeTaste」を提案し、詳細な指示がない場合の人間との乖離と、提案・実装の分解による改善の可能性を示しています。
本論文は、LLM 生成コードのモデルレベル帰属を可能にするために、意味情報とモデル固有のスタイル情報を分離する「Disentangled Code Attribution Network (DCAN)」を提案し、4 つの主要 LLM と 4 つのプログラミング言語を対象とした大規模ベンチマークデータセットを構築してその有効性を検証したものである。
本論文は、マルチモーダル大規模言語モデルの推論能力を活用して文脈に応じた追跡質問を提示し、ユーザーと協働して開発者に有益な詳細なフィードバックレポートを生成する「FeedAIde」というアプローチを提案し、その実装と評価を通じて、従来の単純なフォームに比べてユーザーの報告体験を向上させると同時に、バグ報告や機能リクエストの質と完全性を大幅に高めることを実証しています。
この論文は、ユーザーがアプリのスクリーンショットとコメントから生成 AI を用いて具体的な UI 改善案を即座に生成・選択できる「LikeThis!」を提案し、モデルベンチマークとユーザー研究を通じて、開発者にとってより理解しやすく実行可能なフィードバックを可能にする有効性を実証したものである。
本論文は、LLM の限界をモデル能力の向上ではなく構造的ガバナンスで解決する「二重らせんガバナンスアプローチ」を提案し、FutureShorelines WebGIS 開発における複雑性の削減と保守性の向上を実証することで、地理空間工学における自律的 AI の信頼性を高める手法を確立した。