Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators
本論文は、LLM を用いて SMT 理論の文法を自動抽出し再利用可能な項生成器を合成することで、構文の妥当性を保証しつつ計算コストを大幅に削減し、Z3 や cvc5 などの主要ソルバーで多数のバグを発見した新しいファジングフレームワーク「Once4All」を提案するものである。
177 件の論文
本論文は、LLM を用いて SMT 理論の文法を自動抽出し再利用可能な項生成器を合成することで、構文の妥当性を保証しつつ計算コストを大幅に削減し、Z3 や cvc5 などの主要ソルバーで多数のバグを発見した新しいファジングフレームワーク「Once4All」を提案するものである。
この論文は、大規模言語モデル(LLM)によるコード生成における非機能品質特性の現状を、学術研究、実務家、および実証分析の多角的な視点から検証し、学術界と産業界の関心の乖離やプロンプト調整の限界を明らかにするとともに、生成コードの品質保証メカニズムの統合を提言しています。
本論文は、実行可能かつ検証可能なタスクを生成するために実世界のツール実行を先行させ、その結果から逆推論してタスクを導出する「DIVE」という手法を提案し、これにより合成タスクの多様性を拡張することで、ツール利用における分布外(OOD)汎化性能を大幅に向上させることを実証しています。
本論文は、LLM ベースのコードレビューエージェントの実世界での有用性を評価するための新たなベンチマーク「CR-Bench」と評価パイプライン「CR-Evaluator」を提案し、これらを用いた分析により、単なる解決率だけでなく「見落とし」と「誤検知」のトレードオフを考慮した細やかな評価の重要性を明らかにしています。
本論文は、LLM によるソフトウェア設計における実用的な課題を解決するため、ユーザーの目標を工程順序と段階的な自己検証質問に変換する「Questions-of-Thoughts(QoT)」という推論時フレームワークを提案し、大規模モデルや複雑なドメインにおいて設計品質の向上を実証しています。
本論文は、ルールベースの静的解析と変換ツールを活用した2段階のアプローチにより、Java における自動課題解決の最先端性能を達成する「iSWE Agent」を提案し、企業向けソフトウェア開発の効率化に貢献するものである。
この論文は、医療や法執行などの高リスク分野における AI エージェントの行動を社会的・法的・倫理的・共感的・文化的規範(SLEEC)に整合させるため、抽象的な原則を具体的で検証可能な要件へ変換する体系的なプロセスを提案し、関連する手法や課題、研究の方向性を示す枠組みを確立するものである。
この論文は、汎用的なプロンプトテンプレート、階層的検証、反復的エージェント支援修復という手法を用いて、数ヶ月の専門的エンジニアリングを要していた複雑な強化学習環境を、10 ドル未満の計算コストで高性能かつ意味的に同等な実装へ自動変換する画期的なレシピを提案し、5 つの環境における大幅な高速化とゼロのシミュレーション間ギャップを実証しています。
この論文は、量子物理学の事前知識がなくても量子コンピューティングを学べるよう、対話型の量子回路シミュレーターを中核に据え、即座のフィードバックと自動評価機能を通じて学習の参入障壁を下げたオンラインコースの開発について述べています。
本論文は、歴史的テストデータと地図ネットワークを活用して事前定義なしに高リスクシナリオを予測・生成する「ScenarioFuzz」を提案し、60.3% の時間削減と 103% のバグ発見率向上を実現するとともに、58 のバグと 54 の高リスクカテゴリを特定することで自動運転システムの安全性検証を革新したことを示しています。
LAMBDA は、大規模言語モデルを活用し、コード生成を行う「プログラマー」とデバッグを行う「インスペクター」という 2 つの代理エージェントを連携させることで、自然言語による直感的なデータ分析を可能にするオープンソースのマルチエージェントシステムである。
本論文は、モデルベースシステム工学(特に直交変異モデリングとシステムモデリング言語)を活用して、量子計算の進展に伴う暗号化の脅威に対処し、将来の量子鍵配送ネットワークのアーキテクチャ進化を体系的に管理・実装するための変異駆動型フレームワークを提案するものである。
本論文は、リアルタイム制約下での BDI エージェントの反応性と応答性を向上させるため、時間制約とリソース利用を明示的に管理する新たな制御ループモデルを提案し、リソース収集型ビデオゲームにおける実装と検証を通じてその有効性を示しています。
この論文は、既存のプログラムから機密処理関数を自動的に特定し、TEE(信頼実行環境)互換のコードへ変換・移植する初の LLM 駆動型システム「AUTOTEE」を提案し、Java および Python において高い精度と成功率を達成したことを示しています。
本論文は、大規模言語モデル(LLM)の欠陥特定能力を評価する新たなフレームワークを開発し、意味的変換を施したコードに対して LLM の推論が構文的手がかりに依存していることを実証的に示すとともに、LLM のコード意味理解の向上を促す知見を提供するものです。
MioHint は、大規模言語モデル(LLM)のコード理解能力と静的解析を組み合わせることで、既存の API テスト手法が直面するフィッティネス・プラトー問題を解決し、コードカバレッジと変異精度を大幅に向上させる新しいホワイトボックス API テスト手法を提案するものです。
本論文は、人間の予測不能な行動による安全性リスクを低減するため、PAL ロボティクス社が開発した産業用自律移動ロボットに対し、視覚言語モデルを用いて要件違反の多様な人間行動を生成し、シミュレータ上で効果的なテストを行う手法「RVSG」を提案し、その有効性を検証したものである。
本論文では、計画、実行、テスト、自己反省を担う専門エージェントを備えたマルチエージェント LLM フレームワーク「RefAgent」を提案し、8 つのオープンソース Java プロジェクトでの評価により、単一エージェントや既存ツールと比較してコード品質の向上、コードスメルの削減、そして開発者によるリファクタリングとの高い整合性を達成したことを示しています。
この論文は、実行時に自律的にコードを生成・テスト・再展開して構造や動作を動的に適応させる「自己コーディング情報システム」という新たな研究分野を提案し、その定義、期待される影響、および将来の研究方向について論じています。
本論文は、32 人の Java 初心者を対象としたアイトラッキング実験を通じて、メソッド抽出が単純なタスクではかえってパフォーマンスを低下させる一方、複雑なタスクでは理解を助けることを示し、教育において初心者の段階での過度なモジュール化に注意を促すとともに、静的指標を補完するアイトラッキングの有用性を提言しています。