Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

本論文は、OpenHands の実行ログから安全な行動マクロを抽出・統合した「ゲート付き行動木(GBT)」を外部化された方策として導入し、LLM エージェントの生成制御を木構造の探索に置き換えることで、SWE-bench などのタスクにおける成功率の向上、安全性の確保、およびコスト削減を同時に実現する手法「Traversal-as-Policy」を提案しています。

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

既存の評価手法の限界を克服し、抽象的な要件からツールを自律的に生成・活用する言語エージェントの能力を多角的に診断する新しいベンチマーク「Tool-Genesis」を提案し、現状の最先端モデルでも初期の微小な欠陥がパイプライン全体で増幅され性能が急激に低下することを明らかにしました。

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

この論文は、モデルコンテキストプロトコル(MCP)ベースのソフトウェアシステムにおける実世界の欠陥を初めて大規模に分類し、5 つの高レベルカテゴリを特定するとともに、実務者への調査を通じてその実在性と特徴を実証し、より堅牢で安全な AI 搭載システムの実現に向けた実践的な示唆を提供するものである。

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

本論文は、自然言語の曖昧さから線形時相論理(LTL)仕様を生成する際、小規模な言語モデルの限界を克服するため、制約付き生成と軽量な形式的整合性チェックを組み合わせるモジュール型ツールチェーン「LTLGuard」を提案し、その有効性を示すものである。

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

本論文は、外部オラクルや実行フィードバックに依存せず、強化学習を用いてモデルの重み自体にコード生成・自己反省・自己修正の能力を内蔵させる新たなフレームワーク「ReflexiCoder」を提案し、小規模なオープンソースモデルでも GPT-5.1 などのプロプライエタリモデルに匹敵する性能を達成したことを報告しています。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

この論文は、LLM ベースのコーディングエージェントの失敗を、ドメイン固有の分類体系と自動注釈、ハイブリッド説明生成器を用いて構造化された可視化や自然言語による実用的な洞察に変換する XAI 手法を提案し、ユーザーが失敗の根本原因を特定する速度と修正の精度を大幅に向上させることを実証しています。

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

この論文は、ローカル環境の軽量モデルとクラウド上の大規模モデルをユーザーの行動や推測デコーディング技術で連携させる「MCCom」フレームワークを提案し、コード補完における推論遅延と大規模モデルの使用量を大幅に削減しながら精度を向上させることを示しています。

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

本論文は、Ethereum クライアント間の API 実装不一致を検出するために、仕様に基づくテスト入力生成と大規模言語モデルを活用した誤検知フィルタリングを導入した差分テストフレームワーク「APIDiffer」を提案し、実環境で 72 のバグを発見して開発者による修正やコミュニティへの影響を実証したものである。

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

この論文は、生成 AI(GenAI)のプライバシー脅威を体系的に分析し、LINDDUN フレームワークを拡張して 100 の新たな脅威事例を追加した、チャットボットや AI エージェントなどの GenAI 応用向けに設計された新たなプライバシー脅威モデリングフレームワークを提案するものである。

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

この論文は、C 拡張を含む Python プロジェクトにおけるクラッシュを回避してテスト生成を継続可能にするため、Pynguin をサブプロセス実行方式に改良し、多数のライブラリで未知のクラッシュ要因や不具合を検出する手法を提案・評価したものである。

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

この論文は、大規模言語モデル(LLM)がトレーニングデータなし、または少量のデータでストーリーポイント推定を従来の教師あり学習モデルより高精度に行えることを示し、比較判断をファウショット例として活用することで推定精度がさらに向上することを明らかにした。

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs