"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

複雑な Web 開発タスクにおける 26 名の参加者を対象とした調査により、LLM の不正確な回答や文脈の喪失などの 9 種類の失敗がユーザーの認知負荷を増大させ、回答の有用性が低い場合の放棄リスクが 11 倍に跳ね上がる一方で、追加のプロンプトが放棄を抑制する傾向があることが明らかになり、ソフトウェアエンジニアリングにおける LLM の効果的な統合に向けた課題と将来の研究方向性が示されました。

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

本論文は、自然言語と実行可能コードの間の推論ギャップを解決し、自動車ソフトウェアリリース分析において既存手法を上回る精度と高速性を達成する、関係代数を中間表現として活用した新しい LLM エージェント「GateLens」を提案し、その有効性を実証したものである。

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

この論文は、7 つのプログラミング言語にまたがる 3 万枚以上のパッチを用いた大規模な実証研究を通じて、指示微調整と少数ショットプロンプティングを適用した GPT-4o が、従来の事前学習言語モデル(PLM)を上回る多言語・多粒度(関数レベルおよび行レベル)の脆弱性検出能力を有することを明らかにしています。

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

この論文は、静的型付け言語を対象とした大規模な実証研究を通じて、GitHub の公開リポジトリにおける浮動小数点演算の使用状況を初めて包括的に分析し、既存のベンチマークと実世界のコードの類似点と相違点を明らかにするとともに、1000 万個の浮動小数点関数からなるデータセットを公開して将来の技術開発を支援することを目的としています。

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

この論文は、推論コストの増大や精度低下を招く過剰な Chain-of-Thought を回避するため、事前出力に基づいて動的に閾値を調整し推論を圧縮する適応型フレームワーク「SEER」を提案し、コード生成や数学タスクにおいて推論効率と精度の両立を実現することを示しています。

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

本論文は、大規模プログラムの形式検証におけるスケーラビリティ課題を解決するため、静的解析と大規模言語モデル(LLM)を協調させ、潜在的なランタイムエラーに基づいて検証単位を優先的に選定・合成するモジュール型フレームワーク「Preguss」を提案し、千行を超える実世界プログラムにおいて人間の手間を最大 88.9% 削減する高い自動化を実現したことを示しています。

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

この論文は、GDPR に基づくプライバシー・バイ・デザイン(PbD)の実装において、組織の目標に合致する要件工学手法を評価するための「目標中心アプローチ」を提案し、プロセス特性だけでなく組織目標に基づいた評価の重要性を指摘するものである。

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

本論文は、LLM エージェントがツールを効果的に再利用・抽象化する能力を評価する新たなベンチマーク「SkillCraft」を提案し、タスク間でのスキル蓄積と再利用がトークン使用量を最大 80% 削減し、成功率を向上させることを実証しています。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

この論文は、コストやプライバシーの懸念を回避しつつ機能的な正確性を高めるため、テストベンチ駆動の検証とデバッグ推論を組み合わせたマルチエージェントフレームワーク「SiliconMind-V1」を提案し、ローカルで微調整された大規模言語モデルが RTL 設計を反復的に生成・検証・修正できることを示しています。

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

本論文は、新しい命令セットアーキテクチャを持つ新興ハードウェア向けに、LLM エージェントがフィードバック駆動型のワークフローを通じて低レベルカーネルを生成・最適化し、テンプレートベースのコンパイラ基線と同等かそれ以上の性能を達成できることを示す初のベンチマーク「KernelCraft」を提案するものである。

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

この論文は、曖昧な仕様や形式保証の欠如といった産業規模のハードウェア設計における課題を克服するため、ソフトウェア参照モデルを形式仕様として統合し、計画・合成・形式等価性検査を密接に連携させる新しいマルチエージェントフレームワーク「FormalRTL」を提案し、大規模な産業グレードのベンチマークによる評価でその有効性を示したものです。

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

この論文は、安全クリティカルシステム向けに開発された機械学習用 C 言語コード生成フレームワーク「ACETONE」を、マルチコアアーキテクチャに対応させるため、プロセッサ割り当て問題の定義や既存手法の調査を通じて並列コード生成機能の拡張を提案するものである。

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

この論文は、エージェントのプロンプトを「コンパイルされた成果物」と見なす「テスト駆動型 AI エージェント定義(TDAD)」手法を提案し、可視/非可視テストの分割や意味的変異テストなどのメカニズムを通じて、ツールを使用する LLM エージェントの仕様ゲーミングを防止し、本番環境での行動準拠性を測定可能にするアプローチを示しています。

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

この論文は、モデルのアイデンティティや推論プロファイルなどを第一級プリミティブとして取り込み、効率的かつ管理可能なマルチエージェント LLM システムの実現を目指す新しい通信プロトコル「LLM Delegate Protocol (LDP)」を提案し、その実装と評価を通じて、アイデンティティ感知型ルーティングによる遅延削減や構造化ペイロードによるトークン効率の向上などの実証的利点を示しています。

Sunil PrakashWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

この論文は、LLM を活用したマイクロサービス生成の可能性を検証し、文脈情報の提供方法や生成シナリオ(既存システムへの追加か新規作成か)によって性能が異なることを示しつつも、現時点では完全な自律生成には至っておらず人間の監視が必要であると結論付けています。

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

この論文は、LLM のコンテキストウィンドウを単なるキャッシュではなく、仮想メモリとして扱う「Pichay」と呼ばれる需要ページングシステムを提案し、生産環境での実証を通じて、不要な情報の排除とページフォルト駆動のピン留めによりコンテキスト消費を最大 93% 削減可能であることを示しています。

Tony MasonWed, 11 Ma🤖 cs.AI