cs.SE 편의 논문 | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

이 논문은 오픈핸즈 실행 로그를 기반으로 안전 게이트가 적용된 실행 가능한 행동 트리 (GBT) 를 추출하여 생성 대신 트리 탐색을 제어 정책으로 활용함으로써, 에이전트의 성공률을 획기적으로 높이고 안전 위반을 거의 제로로 줄이며 비용을 절감하는 'Traversal-as-Policy' 프레임워크를 제안합니다.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

이 논문은 데이터베이스 구축, 실행 가능한 환경 생성, 다중 턴 궤적 합성을 담당하는 전문 에이전트들을 조율하여 기능 호출 데이터의 수명 주기를 자동화하고, BFCL-V3 벤치마크의 오류를 식별 및 수정하며 결과 지향 평가 프로토콜을 도입함으로써 모델 성능 평가의 인간적 판단과의 상관관계를 크게 향상시킨 'EigenData'라는 자기 진화형 멀티 에이전트 플랫폼을 제안합니다.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

이 논문은 기존 벤치마크의 한계를 극복하고 에이전트의 도구 생성 능력을 다차원적으로 진단하기 위해 'Tool-Genesis'라는 새로운 벤치마크를 제안하며, 최첨단 모델조차도 초기 단계의 미세한 결함이 파이프라인을 거치며 하류 작업 성능을 급격히 저하시킨다는 사실을 규명했습니다.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

이 논문은 모델 컨텍스트 프로토콜 (MCP) 기반 소프트웨어의 실재 결함에 대한 첫 번째 대규모 분류 체계를 제시하고, 실무자 조사를 통해 그 유효성을 검증하여 보다 견고하고 안전한 AI 소프트웨어 개발에 필요한 통찰을 제공합니다.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

이 논문은 제한된 자원 환경의 소형 언어 모델이 자연어 요구사항으로부터 일관된 선형 시간 논리 (LTL) 명세를 생성할 수 있도록, 제약 생성과 경량 형식 검증 도구를 결합한 모듈형 도구체인 'LTLGuard'를 제안합니다.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

이 논문은 코드베이스에 대한 경량화된 사전 탐색을 통해 불충분한 사용자 요청을 포괄적인 문제 진술로 변환하는 'CodeScout'을 제안함으로써, 소프트웨어 에이전트의 실패 패턴을 줄이고 SWEBench-Verified 벤치마크에서 해결률을 20% 향상시켰다고 요약할 수 있습니다.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

이 논문은 LLM 기반 코딩 에이전트의 실패 원인을 분석하기 위해 실행 로그를 구조화된 설명으로 변환하는 체계적인 XAI 프레임워크를 제안하며, 이를 통해 개발자가 오류의 근본 원인을 더 빠르게 파악하고 정확한 수정 방안을 도출할 수 있음을 실증했습니다.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

이 논문은 로컬 소형 모델과 클라우드 대형 모델을 연결하고 사용자 행동을 활용하여 트리거하는 'MCCom' 프레임워크를 제안함으로써, 코드 완성의 지연 시간을 줄이고 클라우드 비용은 절감하면서도 정확도를 향상시키는 균형을 달성했습니다.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

이 논문은 이더리움 클라이언트 간 API 불일치로 인한 금융 및 네트워크 리스크를 해결하기 위해, 명세 기반 테스트 입력 생성과 대규모 언어 모델을 활용한 오보식 필터링 기술을 통해 기존 도구보다 높은 코드 커버리지와 낮은 오검출률을 달성한 자동화 테스트 프레임워크 'APIDiffer'를 제안하고, 이를 통해 11 개 주요 클라이언트에서 72 개의 버그를 발견하여 개발자들이 수정하거나 채택한 실증적 성과를 보여줍니다.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

이 논문은 자연어 처리와 대규모 언어 모델 (LLM) 을 활용하여 텍스트 명세와 도메인 모델 간의 정합성을 자동으로 탐지하고 오류를 식별하는 접근법을 제안하며, 높은 정밀도와 함께 상당수의 모델 요소를 효과적으로 분류할 수 있음을 실험을 통해 입증했습니다.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

이 논문은 2022 년 7 월 생성형 AI 의 대중화 직전 1,155 명의 개발자를 대상으로 한 설문 데이터를 분석하여 도구 선택의 자율성이 IDE 만족도의 가장 강력한 예측 요인임을 확인하고, 향후 AI 시대의 생산성 - 만족도 불일치 연구에 대한 검증 가능한 기준선을 제시합니다.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

이 논문은 생성형 AI 시스템의 프라이버시 위협을 체계적으로 분석하기 위해 LINDDUN 프레임워크를 기반으로 새로운 도메인 특화 위협 모델링 프레임워크를 제안하고, 이를 채팅봇 사례에 적용하여 100 가지 새로운 위협 예시를 도출하고 AI 에이전트 시스템에서 그 유효성을 검증했습니다.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

이 논문은 C 확장 Python 라이브러리에서 발생하는 크래시 장애를 탐지하고 재현 가능한 테스트 케이스를 생성하기 위해, Pynguin 도구를 서브프로세스 실행 환경에 적응시켜 테스트 생성 과정이 중단되지 않도록 하는 새로운 접근법을 제안하고 그 유효성을 입증합니다.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

이 논문은 딥러닝 모델의 하이퍼파라미터를 조정함으로써 성능 저하 없이 에너지 소비를 줄일 수 있음을 실증적으로 증명하여, 친환경 딥러닝 개발을 위해 하이퍼파라미터 최적화의 중요성을 강조합니다.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

← 이전 다음 →

cs.SE