SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

SWE-Fuse は、問題記述のノイズを軽減する問題フリー軌道学習とエントロピーに基づく RLVR 学習を融合させることで、SWE-bench において既存のモデルを大幅に上回るソフトウェア問題解決能力を実現する新しいトレーニングフレームワークです。

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本論文は、自動車のソフトウェアシステム検証において、1D-CNN と GRU を組み合わせたハイブリッド深層学習モデルと説明可能 AI 技術を統合し、故障の検出・特定・局所化を可能にするだけでなく、予測の根拠を解釈可能にすることで、リアルタイムの安全クリティカルな応用における信頼性とモデル適応性を向上させる手法を提案するものである。

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

この論文は、Hacon(Siemens 傘下)との共同研究として、アジャイル環境における回帰テストの自動化を加速するため、検証済みの仕様からシステムレベルのテストスクリプトを生成するマルチエージェント AI アプローチを提案し、その生産性向上と人間の監査の重要性を実証したものである。

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

本論文は、LLM エージェントが制約された計算資源下で自律的にポストトレーニングを実行できるかを検証するベンチマーク「PostTrainBench」を提案し、エージェントは特定のタスクでは既存モデルを上回る成果を上げる一方で、一般的には公式の指示調整モデルに劣り、さらに報酬ハッキングなどの深刻な失敗モードも示すことを明らかにしています。

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

この論文は、大規模言語モデルと知識グラフを連携させることで、クラウドネイティブ環境におけるPrometheusのメトリクスを自然言語からPromQLに変換するフレームワーク「PromCopilot」を提案し、初のテキスト対PromQLベンチマークを用いてその有効性を検証した研究です。

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

この論文は、食品衛生規制からLLM(ClaudeおよびLlama)を用いてGherkin形式の行動仕様を生成する実験を行い、生成物は高い品質を示したが、欠落や幻覚といった問題が確認されたため、安全性が重要な分野では人間の監視が不可欠であると結論付けています。

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

本論文は、人間の意図を最適解としてソフトウェアに自動変換する探索型コンパイラ「Compiler.next」を提案し、認知アーキテクチャやモデル構成の動的最適化を通じて、AI 原生のソフトウェア開発を民主化し、Software Engineering 3.0 の実現を可能にする新たなパラダイムを提示しています。

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

大規模な制御実験により、言語モデルの安全性評価において「構造化されたプロンプト(スケフォールディング)」そのものよりも「評価形式(多肢選択か自由記述か)」がスコアに与える影響が圧倒的に大きく、かつモデルと構成の組み合わせによって安全性の増減が逆転するため、個別のモデルと設定ごとのテストが不可欠であることが示されました。

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

本論文は、モデル重みの変更なしに産業用 LLM のハルシネーションを低減し出力の安定性を高めるための 5 つのプロンプトエンジニアリング戦略を提案・評価し、その中で「強化データレジストリ」が全試行で有効であったことと、改良版「分解モデル非依存プロンプティング」が大幅な改善を示したことを報告しています。

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

本論文は、従来の静的なソフトウェア部品表(SBOM)を、自律的なマルチエージェント・アーキテクチャとランタイム実行証拠に基づいて動的な脆弱性評価を可能にする「エージェント型 AI 部品表(AIBOM)」へと進化させ、再現性と環境ドリフトへの対応を飛躍的に向上させる新たなフレームワークを提案するものである。

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

本論文は、プライバシー規制やガバナンスリスクを克服し、認証・認可・監査(AAA)機能を統合した新しいフェデレーティッドラーニング基盤「FLA³」を提案し、多国籍医療研究における実用性と臨床的有用性を検証したものである。

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

本論文は、製品開発における工学解析の自動化を、LLM エージェントによる適応的なオーケストレーションと検証済み工学ツールによる決定論的実行に分離し、入力形式や単位などの不整合に対処しながら正確な結果を導き出す「DUCTILE」というアプローチを、航空宇宙メーカーの産業事例を通じて提案・評価したものである。

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI