Process-Centric Analysis of Agentic Software Systems
이 논문은 에이전트 소프트웨어 시스템의 실행 과정을 그래프 기반으로 체계적으로 분석하는 'Graphectory'를 제안하여, 에이전트의 추론 및 전략 패턴을 심층적으로 규명하고 실시간 모니터링을 통해 문제 해결률을 6.9%~23.5% 향상시키는 효과를 입증했습니다.
175 편의 논문
이 논문은 에이전트 소프트웨어 시스템의 실행 과정을 그래프 기반으로 체계적으로 분석하는 'Graphectory'를 제안하여, 에이전트의 추론 및 전략 패턴을 심층적으로 규명하고 실시간 모니터링을 통해 문제 해결률을 6.9%~23.5% 향상시키는 효과를 입증했습니다.
DevBench 는 실제 개발자 텔레메트리 데이터를 기반으로 6 개 프로그래밍 언어와 6 가지 작업 범주에 걸친 1,800 개의 평가 인스턴스를 포함하여, 기존 벤치마크의 한계를 극복하고 생태학적 타당성과 실용적 유용성을 중시하는 LLM 코드 생성 모델 평가를 위한 새로운 기준을 제시합니다.
이 논문은 자연어 처리를 통해 요구사항에서 추출한 구조적 네트워크의 스펙트럼 지표가 통합 노력과 0.95 이상의 높은 상관관계를 보임으로써, 요구사항 단계의 복잡성이 개발 비용과 일정에 미치는 영향을 예측하는 유효한 지표임을 입증합니다.
이 논문은 기술 문서의 계층적 구조를 활용한 계층적 검색과 자동 생성 테스트 케이스를 통한 자기 디버깅 에이전트를 도입하여 복잡한 그래프 추론 작업의 정확도를 높이고 추론 비용을 줄이는 'GraphSkill' 프레임워크와 새로운 평가 데이터셋을 제안합니다.
이 논문은 연구 코드 실행을 위한 환경 구성 능력을 평가하기 위해 'ResearchEnvBench'를 제안하며, 기존 최첨단 에이전트들이 의존성 해결 및 버전 호환성 문제에서 큰 한계를 보임을 확인했습니다.
이 논문은 오픈소스 아전트 AI 저장소에서 수집한 13,602 건의 이슈와 개발자 설문을 바탕으로, 아전트 AI 시스템의 결함 유형, 증상, 근본 원인을 체계적으로 분류하는 분류체계를 제시하고 결함 전파 패턴을 규명합니다.
이 논문은 자동화된 취약점 수정 (AVR) 시스템이 기존 테스트만으로는 검증되지 않는 개발자 의도나 세부 규격을 반영한 'PoC⁺' 테스트를 통과하지 못해 실제 성공률이 과대평가되고 있음을 지적하며, 이를 해결하기 위해 새로운 벤치마크인 PVBench 를 제안하고 근본 원인 분석 및 개발자 의도 파악 능력 향상의 필요성을 강조합니다.
이 논문은 가독성, 변이 보존, 실행 비용 간의 균형을 맞추기 위해 손으로 작성된 변이 (hand-crafted mutants) 를 분석하고 관리하기 위한 선언적 프레임워크를 제안하며, 다양한 변이 표현을 통합하는 대수적 정의와 변환 파이프라인을 구현한 프로토타입 'Marauder'를 소개합니다.
이 논문은 70 억 파라미터 미만의 소형 언어 모델 (SLM) 을 대상으로 한 다차원 평가 프레임워크를 통해, 30 억 파라미터 이상 모델의 제로샷 성능과 20 억 파라미터 미만 모델의 파인튜닝 효과, 그리고 맥락 제한이 있는 중간 규모 모델의 퓨샷 프롬프팅 효율성을 규명하여 지속 가능한 소프트웨어 아키텍처 보조 도구 배포를 위한 기준을 제시합니다.
이 논문은 Stack Overflow 의 사회적 맥락 임베딩을 활용한 학습 기반 랭킹 (LTR) 하이브리드 시스템을 제안하여 개발자의 소프트웨어 버그 해결을 위한 최적의 답변을 추천하는 연구입니다.
본 논문은 4 개의 대규모 언어 모델과 5 가지 프롬프트 제약을 대상으로 한 실증 연구를 통해, 배포 제약 조건이 적용되더라도 모델이 생성한 인용문 중 실제 존재하는 비율이 47.5% 를 초과하지 않으며 많은 부분이 허위임을 확인하고, 이를 바탕으로 학술 문헌 검토나 소프트웨어 공학 파이프라인에 LLM 출력을 활용하기 전에 사후 인용 검증이 필수적임을 주장합니다.
이 논문은 코드 그래프 기반의 정교한 컨텍스트 검색, 자동 실행 피드백, 그리고 패치 생성을 통해 버그 재현 테스트를 단일 생성으로 최적화하고 SWT-Bench Verified 에서 66.28% 의 성공률로 새로운 최첨단 성능을 달성한 'Echo' 에이전트를 제안합니다.
이 연구는 20 명의 소프트웨어 전문가를 대상으로 한 질적 인터뷰를 통해, 원격 및 하이브리드 환경에서 회귀 테스트가 비동기 협업을 지원하기 위해 문서화, 자동화 및 도구 통합에 의존하며 진화하고 있음을 규명했습니다.
이 논문은 2001 년부터 2025 년까지의 43 건의 연구를 체계적으로 분석하여 소프트웨어 공학 교육에서 공감 능력이 윤리적 성찰과 설계 중심의 실천으로 진화하고 있으며, 이를 교육 과정에 체계적으로 통합함으로써 미래 소프트웨어 전문가의 협업, 윤리성, 그리고 책임 있는 혁신 역량을 강화할 수 있음을 시사합니다.
이 논문은 자동화된 패치 정확도 평가 (APCA) 에서 그래프 기반 코드 표현이 기존 시퀀스 또는 추상 구문 트리 (AST) 기반 표현보다 일관되게 우수한 성능을 보이며, 특히 과적합 패치 식별 및 오프더셸 자동 프로그램 수정 (APR) 도구의 실용성 향상에 중요한 역할을 한다는 것을 500 개 이상의 모델과 15 개 벤치마크를 통해 체계적으로 입증했습니다.
이 논문은 LLM 에이전트의 도구 간 데이터 흐름에서 발생하는 '데이터 과노출 (DOE)' 위험을 자동으로 탐지하기 위해 프로그램 분석과 의미 추론을 결합한 프레임워크인 'AgentRaft'를 제안하고, 이를 통해 실제 도구 환경에서 높은 탐지 정확도와 효율성을 입증합니다.
이 논문은 제 3 자 API 의 변경으로 인한 기존 코드 유지보수 문제를 해결하기 위해, 정적 및 동적 API 그래프를 구축하여 진화 경로를 검색하고 이를 기반으로 코드를 생성하는 지식 그래프 기반의 진화적 코드 생성 프레임워크 'KCoEvo'를 제안합니다.
이 논문은 코드 난독화가 인간 프로그램 이해에 미치는 영향을 연구하여, 난독화가 일반적으로 이해 시간 증가와 정확도 감소를 초래하지만 언어별 (자바스크립트와 파이썬) 로 그 영향이 다르게 나타나며, 경험은 언어 간 전이보다는 특정 언어에 대한 친숙도와 더 밀접하게 연관된다는 결과를 제시합니다.
이 논문은 브라질과 포르투갈의 대규모 소프트웨어 기업에서 AI 개발 팀의 다양성이 편향 식별, 공감적 접근, 체계적 차별 해소 등 여섯 가지 핵심 역할을 수행하여 AI 시스템의 공정성을 높이는 데 결정적임을 25 건의 인터뷰를 통해 규명했습니다.
이 논문은 사물인터넷 (IoT) 데이터와 기존 비즈니스 프로세스 이벤트 로그 간의 통합 난제를 해결하기 위해, 표준 OCEL 스키마를 기반으로 체계적으로 IoT 가 강화된 객체 중심 이벤트 로그를 생성하는 도구인 'IOTEL'을 제안하고 실증 사례를 통해 그 유효성을 입증합니다.