From Feedback to Failure: Automated Android Performance Issue Reproduction

이 논문은 앱 리뷰의 모호한 정보를 의미적 검색과 프롬프트 엔지니어링을 통해 보완하고 실행 에이전트를 활용하여 안드로이드 성능 문제를 자동으로 재현하는 'RevPerf'라는 새로운 접근법을 제시하며, 실험 결과 기존 베이스라인 대비 27.28% 높은 72.73% 의 재현 성공률을 달성했음을 보여줍니다.

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

이 논문은 메타모픽 테스트와 역할 기반 다중 에이전트 시스템을 결합하여 자연어 법률 조문을 실행 가능한 로직으로 변환하는 신뢰할 수 있는 법률 소프트웨어 개발 프레임워크를 제안하고, 이를 통해 복잡한 세법 작업에서 최첨단 모델보다 우수한 성능을 보이는 것을 입증했습니다.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

이 논문은 오픈소스 저장소에서 추출한 대규모 다중 파일 변경 사항을 기반으로 한 'CodeTaste' 벤치마크를 통해 LLM 에이전트가 인간 수준의 리팩토링을 수행하고 인간의 선택을 식별하는 능력에 존재하는 격차를 분석하고, 제안 - 구현 분해 및 최적 제안 선정을 통해 정렬을 개선할 수 있음을 보여줍니다.

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

본 논문은 멀티모달 대규모 언어 모델의 추론 능력을 활용하여 사용자의 스크린샷 등 맥락 정보를 기반으로 적응형 후속 질문을 통해 개발자에게 유용한 풍부한 피드백 보고서를 생성하도록 돕는 'FeedAIde'를 제안하고, 이를 통해 사용자 경험과 개발자 정보 가치 모두를 향상시켰음을 실증합니다.

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

이 논문은 사용자가 앱의 UI 개선 사항을 불만 대신 구체적인 제안으로 제출할 수 있도록 돕기 위해, 사용자 코멘트와 스크린샷을 기반으로 개선안을 생성하는 GenAI 기반 접근법인 'LikeThis!'를 제안하고, 벤치마크 및 사용자 연구를 통해 개발자와 사용자 양측의 관점에서 피드백의 질을 향상시켰음을 입증합니다.

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI