DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench 는 실제 개발자 텔레메트리 데이터를 기반으로 6 개 프로그래밍 언어와 6 가지 작업 범주에 걸친 1,800 개의 평가 인스턴스를 포함하여, 기존 벤치마크의 한계를 극복하고 생태학적 타당성과 실용적 유용성을 중시하는 LLM 코드 생성 모델 평가를 위한 새로운 기준을 제시합니다.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

이 논문은 자연어 처리를 통해 요구사항에서 추출한 구조적 네트워크의 스펙트럼 지표가 통합 노력과 0.95 이상의 높은 상관관계를 보임으로써, 요구사항 단계의 복잡성이 개발 비용과 일정에 미치는 영향을 예측하는 유효한 지표임을 입증합니다.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

이 논문은 기술 문서의 계층적 구조를 활용한 계층적 검색과 자동 생성 테스트 케이스를 통한 자기 디버깅 에이전트를 도입하여 복잡한 그래프 추론 작업의 정확도를 높이고 추론 비용을 줄이는 'GraphSkill' 프레임워크와 새로운 평가 데이터셋을 제안합니다.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

Patch Validation in Automated Vulnerability Repair

이 논문은 자동화된 취약점 수정 (AVR) 시스템이 기존 테스트만으로는 검증되지 않는 개발자 의도나 세부 규격을 반영한 'PoC⁺' 테스트를 통과하지 못해 실제 성공률이 과대평가되고 있음을 지적하며, 이를 해결하기 위해 새로운 벤치마크인 PVBench 를 제안하고 근본 원인 분석 및 개발자 의도 파악 능력 향상의 필요성을 강조합니다.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

이 논문은 70 억 파라미터 미만의 소형 언어 모델 (SLM) 을 대상으로 한 다차원 평가 프레임워크를 통해, 30 억 파라미터 이상 모델의 제로샷 성능과 20 억 파라미터 미만 모델의 파인튜닝 효과, 그리고 맥락 제한이 있는 중간 규모 모델의 퓨샷 프롬프팅 효율성을 규명하여 지속 가능한 소프트웨어 아키텍처 보조 도구 배포를 위한 기준을 제시합니다.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

본 논문은 4 개의 대규모 언어 모델과 5 가지 프롬프트 제약을 대상으로 한 실증 연구를 통해, 배포 제약 조건이 적용되더라도 모델이 생성한 인용문 중 실제 존재하는 비율이 47.5% 를 초과하지 않으며 많은 부분이 허위임을 확인하고, 이를 바탕으로 학술 문헌 검토나 소프트웨어 공학 파이프라인에 LLM 출력을 활용하기 전에 사후 인용 검증이 필수적임을 주장합니다.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

이 논문은 코드 그래프 기반의 정교한 컨텍스트 검색, 자동 실행 피드백, 그리고 패치 생성을 통해 버그 재현 테스트를 단일 생성으로 최적화하고 SWT-Bench Verified 에서 66.28% 의 성공률로 새로운 최첨단 성능을 달성한 'Echo' 에이전트를 제안합니다.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

이 논문은 2001 년부터 2025 년까지의 43 건의 연구를 체계적으로 분석하여 소프트웨어 공학 교육에서 공감 능력이 윤리적 성찰과 설계 중심의 실천으로 진화하고 있으며, 이를 교육 과정에 체계적으로 통합함으로써 미래 소프트웨어 전문가의 협업, 윤리성, 그리고 책임 있는 혁신 역량을 강화할 수 있음을 시사합니다.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

이 논문은 자동화된 패치 정확도 평가 (APCA) 에서 그래프 기반 코드 표현이 기존 시퀀스 또는 추상 구문 트리 (AST) 기반 표현보다 일관되게 우수한 성능을 보이며, 특히 과적합 패치 식별 및 오프더셸 자동 프로그램 수정 (APR) 도구의 실용성 향상에 중요한 역할을 한다는 것을 500 개 이상의 모델과 15 개 벤치마크를 통해 체계적으로 입증했습니다.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

이 논문은 LLM 에이전트의 도구 간 데이터 흐름에서 발생하는 '데이터 과노출 (DOE)' 위험을 자동으로 탐지하기 위해 프로그램 분석과 의미 추론을 결합한 프레임워크인 'AgentRaft'를 제안하고, 이를 통해 실제 도구 환경에서 높은 탐지 정확도와 효율성을 입증합니다.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

이 논문은 제 3 자 API 의 변경으로 인한 기존 코드 유지보수 문제를 해결하기 위해, 정적 및 동적 API 그래프를 구축하여 진화 경로를 검색하고 이를 기반으로 코드를 생성하는 지식 그래프 기반의 진화적 코드 생성 프레임워크 'KCoEvo'를 제안합니다.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

이 논문은 코드 난독화가 인간 프로그램 이해에 미치는 영향을 연구하여, 난독화가 일반적으로 이해 시간 증가와 정확도 감소를 초래하지만 언어별 (자바스크립트와 파이썬) 로 그 영향이 다르게 나타나며, 경험은 언어 간 전이보다는 특정 언어에 대한 친숙도와 더 밀접하게 연관된다는 결과를 제시합니다.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs