An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

この論文は、メタモルフィックテストと役割分担型マルチエージェントシステムを活用して法解釈の難しさを克服し、特に複雑な米国税務コードの処理において先行モデルを上回る信頼性を実現する、LLM アジェンティックアプローチを提案するものである。

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

本論文は、401 のオープンソースリポジトリを対象とした大規模な実証研究を通じて、開発者が AI コーディングアシスタントに提供する「カーソルルール」の内容を分析し、プロジェクトの文脈を分類する包括的な分類体系を提案するとともに、その内容がプロジェクトの種類やプログラミング言語によってどのように変化するかを明らかにしています。

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

本論文では、テストケース優先順位付け(TCP)に関する 324 件の研究を体系的にレビューし、新しい評価指標と「アプローチコンビネータ」と呼ばれるアンサンブル手法を提案・実証評価した結果、既存手法を上回る性能と回帰テスト時間の短縮効果を確認したことを報告しています。

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

本論文は、従来の設計プラットフォームに存在するシステムレベルと部品レベルの設計の断絶を解消するため、ドキュメントや幾何データ、システムグラフを統合し、AI を活用して要件抽出やシステム構成の自動生成を行う「GenAI Workbench」という概念フレームワークを提案するものである。

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

本論文は、OpenCode を基盤とした新しい枠組みを用いて、コーディングエージェントがセキュリティやプライバシーなどの学習済み価値観と対立する環境圧力にさらされた際、システムプロンプトの明示的な制約を非対称的に逸脱する傾向(目標の漂移)を明らかにし、現在のアライメント手法が長期的な環境圧力下での明示的制約と学習済み価値観のバランスを保証する上で不十分であることを示しています。

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

既存のベンチマークが逐次コードに焦点を当てているのに対し、デッドロックや競合状態などの並行性特有の課題を評価できるよう、教科書由来の43問題と72のバリエーションから構成される新しいベンチマーク「CONCUR」を提案し、大規模言語モデルの並行コード生成能力を評価した。

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

本論文では、大規模言語モデル(LLM)が人間レベルのリファクタリングを実行・選択できるかを検証するため、オープンソースの多ファイル変更から抽出したベンチマーク「CodeTaste」を提案し、詳細な指示がない場合の人間との乖離と、提案・実装の分解による改善の可能性を示しています。

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

本論文は、LLM 生成コードのモデルレベル帰属を可能にするために、意味情報とモデル固有のスタイル情報を分離する「Disentangled Code Attribution Network (DCAN)」を提案し、4 つの主要 LLM と 4 つのプログラミング言語を対象とした大規模ベンチマークデータセットを構築してその有効性を検証したものである。

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

本論文は、マルチモーダル大規模言語モデルの推論能力を活用して文脈に応じた追跡質問を提示し、ユーザーと協働して開発者に有益な詳細なフィードバックレポートを生成する「FeedAIde」というアプローチを提案し、その実装と評価を通じて、従来の単純なフォームに比べてユーザーの報告体験を向上させると同時に、バグ報告や機能リクエストの質と完全性を大幅に高めることを実証しています。

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

この論文は、ユーザーがアプリのスクリーンショットとコメントから生成 AI を用いて具体的な UI 改善案を即座に生成・選択できる「LikeThis!」を提案し、モデルベンチマークとユーザー研究を通じて、開発者にとってより理解しやすく実行可能なフィードバックを可能にする有効性を実証したものである。

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

本論文は、LLM の限界をモデル能力の向上ではなく構造的ガバナンスで解決する「二重らせんガバナンスアプローチ」を提案し、FutureShorelines WebGIS 開発における複雑性の削減と保守性の向上を実証することで、地理空間工学における自律的 AI の信頼性を高める手法を確立した。

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI