Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

이 논문은 오픈핸즈 실행 로그를 기반으로 안전 게이트가 적용된 실행 가능한 행동 트리 (GBT) 를 추출하여 생성 대신 트리 탐색을 제어 정책으로 활용함으로써, 에이전트의 성공률을 획기적으로 높이고 안전 위반을 거의 제로로 줄이며 비용을 절감하는 'Traversal-as-Policy' 프레임워크를 제안합니다.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

이 논문은 데이터베이스 구축, 실행 가능한 환경 생성, 다중 턴 궤적 합성을 담당하는 전문 에이전트들을 조율하여 기능 호출 데이터의 수명 주기를 자동화하고, BFCL-V3 벤치마크의 오류를 식별 및 수정하며 결과 지향 평가 프로토콜을 도입함으로써 모델 성능 평가의 인간적 판단과의 상관관계를 크게 향상시킨 'EigenData'라는 자기 진화형 멀티 에이전트 플랫폼을 제안합니다.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

이 논문은 기존 벤치마크의 한계를 극복하고 에이전트의 도구 생성 능력을 다차원적으로 진단하기 위해 'Tool-Genesis'라는 새로운 벤치마크를 제안하며, 최첨단 모델조차도 초기 단계의 미세한 결함이 파이프라인을 거치며 하류 작업 성능을 급격히 저하시킨다는 사실을 규명했습니다.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

이 논문은 제한된 자원 환경의 소형 언어 모델이 자연어 요구사항으로부터 일관된 선형 시간 논리 (LTL) 명세를 생성할 수 있도록, 제약 생성과 경량 형식 검증 도구를 결합한 모듈형 도구체인 'LTLGuard'를 제안합니다.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

이 논문은 코드베이스에 대한 경량화된 사전 탐색을 통해 불충분한 사용자 요청을 포괄적인 문제 진술로 변환하는 'CodeScout'을 제안함으로써, 소프트웨어 에이전트의 실패 패턴을 줄이고 SWEBench-Verified 벤치마크에서 해결률을 20% 향상시켰다고 요약할 수 있습니다.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

이 논문은 이더리움 클라이언트 간 API 불일치로 인한 금융 및 네트워크 리스크를 해결하기 위해, 명세 기반 테스트 입력 생성과 대규모 언어 모델을 활용한 오보식 필터링 기술을 통해 기존 도구보다 높은 코드 커버리지와 낮은 오검출률을 달성한 자동화 테스트 프레임워크 'APIDiffer'를 제안하고, 이를 통해 11 개 주요 클라이언트에서 72 개의 버그를 발견하여 개발자들이 수정하거나 채택한 실증적 성과를 보여줍니다.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

이 논문은 자연어 처리와 대규모 언어 모델 (LLM) 을 활용하여 텍스트 명세와 도메인 모델 간의 정합성을 자동으로 탐지하고 오류를 식별하는 접근법을 제안하며, 높은 정밀도와 함께 상당수의 모델 요소를 효과적으로 분류할 수 있음을 실험을 통해 입증했습니다.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

이 논문은 생성형 AI 시스템의 프라이버시 위협을 체계적으로 분석하기 위해 LINDDUN 프레임워크를 기반으로 새로운 도메인 특화 위협 모델링 프레임워크를 제안하고, 이를 채팅봇 사례에 적용하여 100 가지 새로운 위협 예시를 도출하고 AI 에이전트 시스템에서 그 유효성을 검증했습니다.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

이 논문은 C 확장 Python 라이브러리에서 발생하는 크래시 장애를 탐지하고 재현 가능한 테스트 케이스를 생성하기 위해, Pynguin 도구를 서브프로세스 실행 환경에 적응시켜 테스트 생성 과정이 중단되지 않도록 하는 새로운 접근법을 제안하고 그 유효성을 입증합니다.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

이 논문은 딥러닝 모델의 하이퍼파라미터를 조정함으로써 성능 저하 없이 에너지 소비를 줄일 수 있음을 실증적으로 증명하여, 친환경 딥러닝 개발을 위해 하이퍼파라미터 최적화의 중요성을 강조합니다.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

본 논문은 대규모 언어 모델 (LLM) 이 학습 데이터 없이도 기존 지도 학습 모델보다 우수한 스토리 포인트 예측 성능을 보이며, 소량의 학습 데이터나 비교 판단을 활용한 프롬프팅을 통해 성능을 더욱 향상시킬 수 있음을 16 개 소프트웨어 프로젝트를 통한 실증 연구로 입증했습니다.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

이 논문은 기존 연구의 체계적 매핑을 바탕으로 디지털 모델, 섀도우, 트윈을 아우르는 포괄적인 일반화 기능 모델을 제안하고, 이를 다양한 도메인의 사례에 적용하여 검증함으로써 디지털 트윈의 설계 의사결정 지원 및 모델 기반 개발·검증의 기반을 마련합니다.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs