cs.SE 件の論文 | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

本論文は、OpenHands の実行ログから安全な行動マクロを抽出・統合した「ゲート付き行動木（GBT）」を外部化された方策として導入し、LLM エージェントの生成制御を木構造の探索に置き換えることで、SWE-bench などのタスクにおける成功率の向上、安全性の確保、およびコスト削減を同時に実現する手法「Traversal-as-Policy」を提案しています。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

既存の評価手法の限界を克服し、抽象的な要件からツールを自律的に生成・活用する言語エージェントの能力を多角的に診断する新しいベンチマーク「Tool-Genesis」を提案し、現状の最先端モデルでも初期の微小な欠陥がパイプライン全体で増幅され性能が急激に低下することを明らかにしました。

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

この論文は、モデルコンテキストプロトコル（MCP）ベースのソフトウェアシステムにおける実世界の欠陥を初めて大規模に分類し、5 つの高レベルカテゴリを特定するとともに、実務者への調査を通じてその実在性と特徴を実証し、より堅牢で安全な AI 搭載システムの実現に向けた実践的な示唆を提供するものである。

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

本論文は、自然言語の曖昧さから線形時相論理（LTL）仕様を生成する際、小規模な言語モデルの限界を克服するため、制約付き生成と軽量な形式的整合性チェックを組み合わせるモジュール型ツールチェーン「LTLGuard」を提案し、その有効性を示すものである。

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

underspecified な問題文をコードベースの事前探索を通じて文脈を補完し、明確化することで、ソフトウェアエージェントの解決成功率を 20% 向上させる「CodeScout」というアプローチを提案した。

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

本論文は、外部オラクルや実行フィードバックに依存せず、強化学習を用いてモデルの重み自体にコード生成・自己反省・自己修正の能力を内蔵させる新たなフレームワーク「ReflexiCoder」を提案し、小規模なオープンソースモデルでも GPT-5.1 などのプロプライエタリモデルに匹敵する性能を達成したことを報告しています。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

この論文は、LLM ベースのコーディングエージェントの失敗を、ドメイン固有の分類体系と自動注釈、ハイブリッド説明生成器を用いて構造化された可視化や自然言語による実用的な洞察に変換する XAI 手法を提案し、ユーザーが失敗の根本原因を特定する速度と修正の精度を大幅に向上させることを実証しています。

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

この論文は、ローカル環境の軽量モデルとクラウド上の大規模モデルをユーザーの行動や推測デコーディング技術で連携させる「MCCom」フレームワークを提案し、コード補完における推論遅延と大規模モデルの使用量を大幅に削減しながら精度を向上させることを示しています。

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

本論文は、Ethereum クライアント間の API 実装不一致を検出するために、仕様に基づくテスト入力生成と大規模言語モデルを活用した誤検知フィルタリングを導入した差分テストフレームワーク「APIDiffer」を提案し、実環境で 72 のバグを発見して開発者による修正やコミュニティへの影響を実証したものである。

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

この論文は、自然言語処理と大規模言語モデル（LLM）を活用して、テキスト仕様とドメインモデル間のセマンティックな整合性を高精度で検出し、モデル要素の正誤を分類・根拠となる文を提示する手法を提案し、その有効性を検証したものである。

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

この論文は、生成 AI の普及直前の 2022 年 7 月に 1,155 人の開発者を対象に実施した調査を通じて、開発者満足度とツール選択の自律性の関連性を定量化し、AI 時代における生産性と満足度の乖離を研究するための重要な事前基準（ベースライン）を確立したことを示しています。

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

この論文は、生成 AI（GenAI）のプライバシー脅威を体系的に分析し、LINDDUN フレームワークを拡張して 100 の新たな脅威事例を追加した、チャットボットや AI エージェントなどの GenAI 応用向けに設計された新たなプライバシー脅威モデリングフレームワークを提案するものである。

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

この論文は、C 拡張を含む Python プロジェクトにおけるクラッシュを回避してテスト生成を継続可能にするため、Pynguin をサブプロセス実行方式に改良し、多数のライブラリで未知のクラッシュ要因や不具合を検出する手法を提案・評価したものである。

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

この論文は、ハイパーパラメータの調整がモデルの性能を損なうことなくエネルギー消費を削減できることを実証し、グリーンな深層学習の実現に向けた新たな視点を提供しています。

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

← 前へ次へ →

cs.SE