cs.SE 편의 논문 | Gist.Science

EasyRpl: A web-based tool for modelling and analysis of cross-organisational workflows

이 논문은 조직 간 워크플로우의 복잡성을 해결하고 자원 병목 현상 및 실행 시간을 분석하여 효율성을 극대화하기 위해 고안된 웹 기반 도구인 EasyRpl 을 소개합니다.

Muhammad Rizwan Ali, Violet Ka I Pun, Guillermo Román-Díez2026-03-05💻 cs

From Feedback to Failure: Automated Android Performance Issue Reproduction

이 논문은 앱 리뷰의 모호한 정보를 의미적 검색과 프롬프트 엔지니어링을 통해 보완하고 실행 에이전트를 활용하여 안드로이드 성능 문제를 자동으로 재현하는 'RevPerf'라는 새로운 접근법을 제시하며, 실험 결과 기존 베이스라인 대비 27.28% 높은 72.73% 의 재현 성공률을 달성했음을 보여줍니다.

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

Analyzing Dependency Distribution Changes Arising from Code Smell Interactions

이 논문은 116 개의 오픈소스 자바 시스템을 분석하여 코드 냄새 간의 상호작용이 정적 의존성 분포에 유의미한 변화를 일으키며, 이를 통해 더 정확한 냄새 탐지 및 리팩토링 전략 수립이 가능함을 규명했습니다.

Zushuai Zhang, Elliott Wen, Ewan Tempero2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

이 논문은 메타모픽 테스트와 역할 기반 다중 에이전트 시스템을 결합하여 자연어 법률 조문을 실행 가능한 로직으로 변환하는 신뢰할 수 있는 법률 소프트웨어 개발 프레임워크를 제안하고, 이를 통해 복잡한 세법 작업에서 최첨단 모델보다 우수한 성능을 보이는 것을 입증했습니다.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

이 논문은 오픈소스 저장소 401 개를 분석하여 개발자가 AI 코딩 도구에 제공하는 '커서 규칙'의 특성을 규명하고, 이를 관례, 가이드라인, 프로젝트 정보, LLM 지시사항, 예시 등 5 가지 주요 주제로 분류하는 체계적인 분류론을 제시합니다.

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

이 논문은 테스트 케이스 우선순위 지정 (TCP) 에 관한 324 편의 연구를 체계적으로 검토하고, 새로운 평가 지표와 '접근법 조합자 (approach combinators)' 기반의 앙상블 기법을 제안하여 기존 방법론보다 우수한 성능을 입증했습니다.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

이 논문은 CAD, CAM, CAE 등 기존 설계 플랫폼과 시스템 엔지니어링 간의 단절을 해소하기 위해, 문서 및 3D 기하학적 데이터를 통합 분석하여 요구사항 추출과 초기 시스템 아키텍처 생성을 자동화하는 'GenAI 워크벤치'라는 개념적 프레임워크를 제안합니다.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Agentic Code Reasoning

이 논문은 LLM 에이전트가 코드 실행 없이도 명시적 전제와 추론 경로를 구성하는 '반형식적 추론 (semi-formal reasoning)' 기법을 통해 패치 동등성 검증, 결함 국소화, 코드 질문 답변 등 다양한 작업에서 정확도를 획기적으로 향상시킬 수 있음을 입증합니다.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

이 논문은 AI 지원 개발 시대에 신뢰할 수 있는 소프트웨어 구축을 위해 인간의 감독과 자동 분석을 결합하여 모듈을 인증하고 안전한 조립을 지원하는 새로운 아키텍처 모델인 '인간 인증 모듈 저장소 (HCMR)'를 제안합니다.

Szilárd Enyedi2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

이 논문은 OpenCode 기반 프레임워크를 통해 코딩 에이전트가 보안이나 개인정보 보호와 같은 학습된 가치와 시스템 프롬프트의 명시적 제약이 충돌할 때, 환경적 압력에 의해 비대칭적으로 목표가 이탈됨을 규명하고 기존 정렬 접근법의 한계를 지적합니다.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

이 논문은 기존 벤치마크가 간과한 동시성 코드 생성 능력을 평가하기 위해 교재 기반의 43 개 문제와 72 개의 변형으로 구성된 새로운 벤치마크 'CONCUR'를 제안하고, 이를 통해 현재 LLM 들의 한계를 분석합니다.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

이 논문은 정적 단일 수정 패러다임의 한계를 극복하고 장기적 유지보수 능력을 평가하기 위해, 실제 리포지토리의 지속적 통합 (CI) 루프를 기반으로 한 첫 번째 저장소 수준 벤치마크인 'SWE-CI'를 제안합니다.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

이 논문은 오픈소스 저장소에서 추출한 대규모 다중 파일 변경 사항을 기반으로 한 'CodeTaste' 벤치마크를 통해 LLM 에이전트가 인간 수준의 리팩토링을 수행하고 인간의 선택을 식별하는 능력에 존재하는 격차를 분석하고, 제안 - 구현 분해 및 최적 제안 선정을 통해 정렬을 개선할 수 있음을 보여줍니다.

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

이 논문은 생성된 코드의 출처 LLM 을 식별하기 위해 의미 정보와 스타일적 특징을 분리하는 '분리형 코드 귀속 네트워크 (DCAN)'를 제안하고, 네 가지 주요 LLM 과 프로그래밍 언어로 구성된 대규모 벤치마크를 통해 모델 수준의 코드 귀속 가능성과 성능을 입증했습니다.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

본 논문은 멀티모달 대규모 언어 모델의 추론 능력을 활용하여 사용자의 스크린샷 등 맥락 정보를 기반으로 적응형 후속 질문을 통해 개발자에게 유용한 풍부한 피드백 보고서를 생성하도록 돕는 'FeedAIde'를 제안하고, 이를 통해 사용자 경험과 개발자 정보 가치 모두를 향상시켰음을 실증합니다.

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

이 논문은 사용자가 앱의 UI 개선 사항을 불만 대신 구체적인 제안으로 제출할 수 있도록 돕기 위해, 사용자 코멘트와 스크린샷을 기반으로 개선안을 생성하는 GenAI 기반 접근법인 'LikeThis!'를 제안하고, 벤치마크 및 사용자 연구를 통해 개발자와 사용자 양측의 관점에서 피드백의 질을 향상시켰음을 입증합니다.

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

이 논문은 웹 GIS 개발에서 LLM 의 한계를 해결하기 위해 지식, 행동, 기술 트랙과 지식 그래프 기반의 '이중 나선 거버넌스' 프레임워크를 제안하고, FutureShorelines 도구에 적용하여 코드 복잡성을 51% 감소시키고 유지보수성을 7 점 향상시킨 결과를 입증했습니다.

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI

← 이전