cs.SE 편의 논문 | Gist.Science

Process-Centric Analysis of Agentic Software Systems

이 논문은 에이전트 소프트웨어 시스템의 실행 과정을 그래프 기반으로 체계적으로 분석하는 'Graphectory'를 제안하여, 에이전트의 추론 및 전략 패턴을 심층적으로 규명하고 실시간 모니터링을 통해 문제 해결률을 6.9%~23.5% 향상시키는 효과를 입증했습니다.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench 는 실제 개발자 텔레메트리 데이터를 기반으로 6 개 프로그래밍 언어와 6 가지 작업 범주에 걸친 1,800 개의 평가 인스턴스를 포함하여, 기존 벤치마크의 한계를 극복하고 생태학적 타당성과 실용적 유용성을 중시하는 LLM 코드 생성 모델 평가를 위한 새로운 기준을 제시합니다.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

이 논문은 자연어 처리를 통해 요구사항에서 추출한 구조적 네트워크의 스펙트럼 지표가 통합 노력과 0.95 이상의 높은 상관관계를 보임으로써, 요구사항 단계의 복잡성이 개발 비용과 일정에 미치는 영향을 예측하는 유효한 지표임을 입증합니다.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

이 논문은 기술 문서의 계층적 구조를 활용한 계층적 검색과 자동 생성 테스트 케이스를 통한 자기 디버깅 에이전트를 도입하여 복잡한 그래프 추론 작업의 정확도를 높이고 추론 비용을 줄이는 'GraphSkill' 프레임워크와 새로운 평가 데이터셋을 제안합니다.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

이 논문은 연구 코드 실행을 위한 환경 구성 능력을 평가하기 위해 'ResearchEnvBench'를 제안하며, 기존 최첨단 에이전트들이 의존성 해결 및 버전 호환성 문제에서 큰 한계를 보임을 확인했습니다.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

이 논문은 오픈소스 아전트 AI 저장소에서 수집한 13,602 건의 이슈와 개발자 설문을 바탕으로, 아전트 AI 시스템의 결함 유형, 증상, 근본 원인을 체계적으로 분류하는 분류체계를 제시하고 결함 전파 패턴을 규명합니다.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

이 논문은 자동화된 취약점 수정 (AVR) 시스템이 기존 테스트만으로는 검증되지 않는 개발자 의도나 세부 규격을 반영한 'PoC⁺' 테스트를 통과하지 못해 실제 성공률이 과대평가되고 있음을 지적하며, 이를 해결하기 위해 새로운 벤치마크인 PVBench 를 제안하고 근본 원인 분석 및 개발자 의도 파악 능력 향상의 필요성을 강조합니다.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

이 논문은 가독성, 변이 보존, 실행 비용 간의 균형을 맞추기 위해 손으로 작성된 변이 (hand-crafted mutants) 를 분석하고 관리하기 위한 선언적 프레임워크를 제안하며, 다양한 변이 표현을 통합하는 대수적 정의와 변환 파이프라인을 구현한 프로토타입 'Marauder'를 소개합니다.

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

이 논문은 70 억 파라미터 미만의 소형 언어 모델 (SLM) 을 대상으로 한 다차원 평가 프레임워크를 통해, 30 억 파라미터 이상 모델의 제로샷 성능과 20 억 파라미터 미만 모델의 파인튜닝 효과, 그리고 맥락 제한이 있는 중간 규모 모델의 퓨샷 프롬프팅 효율성을 규명하여 지속 가능한 소프트웨어 아키텍처 보조 도구 배포를 위한 기준을 제시합니다.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

이 논문은 Stack Overflow 의 사회적 맥락 임베딩을 활용한 학습 기반 랭킹 (LTR) 하이브리드 시스템을 제안하여 개발자의 소프트웨어 버그 해결을 위한 최적의 답변을 추천하는 연구입니다.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

본 논문은 4 개의 대규모 언어 모델과 5 가지 프롬프트 제약을 대상으로 한 실증 연구를 통해, 배포 제약 조건이 적용되더라도 모델이 생성한 인용문 중 실제 존재하는 비율이 47.5% 를 초과하지 않으며 많은 부분이 허위임을 확인하고, 이를 바탕으로 학술 문헌 검토나 소프트웨어 공학 파이프라인에 LLM 출력을 활용하기 전에 사후 인용 검증이 필수적임을 주장합니다.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

이 논문은 코드 그래프 기반의 정교한 컨텍스트 검색, 자동 실행 피드백, 그리고 패치 생성을 통해 버그 재현 테스트를 단일 생성으로 최적화하고 SWT-Bench Verified 에서 66.28% 의 성공률로 새로운 최첨단 성능을 달성한 'Echo' 에이전트를 제안합니다.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

이 연구는 20 명의 소프트웨어 전문가를 대상으로 한 질적 인터뷰를 통해, 원격 및 하이브리드 환경에서 회귀 테스트가 비동기 협업을 지원하기 위해 문서화, 자동화 및 도구 통합에 의존하며 진화하고 있음을 규명했습니다.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

이 논문은 2001 년부터 2025 년까지의 43 건의 연구를 체계적으로 분석하여 소프트웨어 공학 교육에서 공감 능력이 윤리적 성찰과 설계 중심의 실천으로 진화하고 있으며, 이를 교육 과정에 체계적으로 통합함으로써 미래 소프트웨어 전문가의 협업, 윤리성, 그리고 책임 있는 혁신 역량을 강화할 수 있음을 시사합니다.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

이 논문은 자동화된 패치 정확도 평가 (APCA) 에서 그래프 기반 코드 표현이 기존 시퀀스 또는 추상 구문 트리 (AST) 기반 표현보다 일관되게 우수한 성능을 보이며, 특히 과적합 패치 식별 및 오프더셸 자동 프로그램 수정 (APR) 도구의 실용성 향상에 중요한 역할을 한다는 것을 500 개 이상의 모델과 15 개 벤치마크를 통해 체계적으로 입증했습니다.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

이 논문은 LLM 에이전트의 도구 간 데이터 흐름에서 발생하는 '데이터 과노출 (DOE)' 위험을 자동으로 탐지하기 위해 프로그램 분석과 의미 추론을 결합한 프레임워크인 'AgentRaft'를 제안하고, 이를 통해 실제 도구 환경에서 높은 탐지 정확도와 효율성을 입증합니다.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

← 이전 다음 →

cs.SE