Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

この論文は、大規模言語モデル(LLM)によるコード生成における非機能品質特性の現状を、学術研究、実務家、および実証分析の多角的な視点から検証し、学術界と産業界の関心の乖離やプロンプト調整の限界を明らかにするとともに、生成コードの品質保証メカニズムの統合を提言しています。

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

本論文は、実行可能かつ検証可能なタスクを生成するために実世界のツール実行を先行させ、その結果から逆推論してタスクを導出する「DIVE」という手法を提案し、これにより合成タスクの多様性を拡張することで、ツール利用における分布外(OOD)汎化性能を大幅に向上させることを実証しています。

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

本論文は、LLM ベースのコードレビューエージェントの実世界での有用性を評価するための新たなベンチマーク「CR-Bench」と評価パイプライン「CR-Evaluator」を提案し、これらを用いた分析により、単なる解決率だけでなく「見落とし」と「誤検知」のトレードオフを考慮した細やかな評価の重要性を明らかにしています。

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

本論文は、LLM によるソフトウェア設計における実用的な課題を解決するため、ユーザーの目標を工程順序と段階的な自己検証質問に変換する「Questions-of-Thoughts(QoT)」という推論時フレームワークを提案し、大規模モデルや複雑なドメインにおいて設計品質の向上を実証しています。

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

この論文は、医療や法執行などの高リスク分野における AI エージェントの行動を社会的・法的・倫理的・共感的・文化的規範(SLEEC)に整合させるため、抽象的な原則を具体的で検証可能な要件へ変換する体系的なプロセスを提案し、関連する手法や課題、研究の方向性を示す枠組みを確立するものである。

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

この論文は、汎用的なプロンプトテンプレート、階層的検証、反復的エージェント支援修復という手法を用いて、数ヶ月の専門的エンジニアリングを要していた複雑な強化学習環境を、10 ドル未満の計算コストで高性能かつ意味的に同等な実装へ自動変換する画期的なレシピを提案し、5 つの環境における大幅な高速化とゼロのシミュレーション間ギャップを実証しています。

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator

この論文は、量子物理学の事前知識がなくても量子コンピューティングを学べるよう、対話型の量子回路シミュレーターを中核に据え、即座のフィードバックと自動評価機能を通じて学習の参入障壁を下げたオンラインコースの開発について述べています。

Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari + 2 more2026-03-11⚛️ quant-ph

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

本論文は、歴史的テストデータと地図ネットワークを活用して事前定義なしに高リスクシナリオを予測・生成する「ScenarioFuzz」を提案し、60.3% の時間削減と 103% のバグ発見率向上を実現するとともに、58 のバグと 54 の高リスクカテゴリを特定することで自動運転システムの安全性検証を革新したことを示しています。

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

本論文は、モデルベースシステム工学(特に直交変異モデリングとシステムモデリング言語)を活用して、量子計算の進展に伴う暗号化の脅威に対処し、将来の量子鍵配送ネットワークのアーキテクチャ進化を体系的に管理・実装するための変異駆動型フレームワークを提案するものである。

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

この論文は、既存のプログラムから機密処理関数を自動的に特定し、TEE(信頼実行環境)互換のコードへ変換・移植する初の LLM 駆動型システム「AUTOTEE」を提案し、Java および Python において高い精度と成功率を達成したことを示しています。

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

本論文は、大規模言語モデル(LLM)の欠陥特定能力を評価する新たなフレームワークを開発し、意味的変換を施したコードに対して LLM の推論が構文的手がかりに依存していることを実証的に示すとともに、LLM のコード意味理解の向上を促す知見を提供するものです。

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

本論文は、人間の予測不能な行動による安全性リスクを低減するため、PAL ロボティクス社が開発した産業用自律移動ロボットに対し、視覚言語モデルを用いて要件違反の多様な人間行動を生成し、シミュレータ上で効果的なテストを行う手法「RVSG」を提案し、その有効性を検証したものである。

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

本論文では、計画、実行、テスト、自己反省を担う専門エージェントを備えたマルチエージェント LLM フレームワーク「RefAgent」を提案し、8 つのオープンソース Java プロジェクトでの評価により、単一エージェントや既存ツールと比較してコード品質の向上、コードスメルの削減、そして開発者によるリファクタリングとの高い整合性を達成したことを示しています。

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

本論文は、32 人の Java 初心者を対象としたアイトラッキング実験を通じて、メソッド抽出が単純なタスクではかえってパフォーマンスを低下させる一方、複雑なタスクでは理解を助けることを示し、教育において初心者の段階での過度なモジュール化に注意を促すとともに、静的指標を補完するアイトラッキングの有用性を提言しています。

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs