SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments
이 논문은 실제 GUI 환경에서 LLM 기반 자율 에이전트의 신뢰성을 평가하기 위해 4 단계 전문 에이전트 아키텍처를 갖춘 완전 자동화 테스트 프레임워크 'SpecOps'를 제안하며, 기존 방법론 대비 뛰어난 버그 탐지 능력과 비용 효율성을 입증합니다.
175 편의 논문
이 논문은 실제 GUI 환경에서 LLM 기반 자율 에이전트의 신뢰성을 평가하기 위해 4 단계 전문 에이전트 아키텍처를 갖춘 완전 자동화 테스트 프레임워크 'SpecOps'를 제안하며, 기존 방법론 대비 뛰어난 버그 탐지 능력과 비용 효율성을 입증합니다.
이 논문은 복잡한 소프트웨어 시스템의 검증 비용을 줄이고 목표 달성을 위해 '영향력의 희소성'을 활용한 모델 없는 탐색 기법인 'herding'을 제안하며, 이를 통해 소수의 샘플로 최적의 결과를 도출하는 EZR(효율적 제로-지식 랭커) 알고리즘을 소개합니다.
이 논문은 정적 분석 도구의 높은 오탐지율을 해결하기 위해 코드 속성 그래프를 기반으로 한 그래프 합성곱 신경망 (GCN) 모델을 제안하여, CamBenchCAP 및 CryptoAPI-Bench 데이터셋에서 각각 100% 및 최대 96.6% 의 정확도로 오탐지를 효과적으로 예측하고 보안 취약점을 식별하는 데 성공했다고 요약할 수 있습니다.
이 논문은 2025 년 JISBD 컨퍼런스 내 'QuantumX' 트랙을 통해 양자 컴퓨팅과 소프트웨어 공학의 융합을 논의한 연구 성과와 커뮤니티 구축 노력을 종합하고, 향후 양자 소프트웨어 공학 분야의 발전 방향과 과제를 제시합니다.
이 논문은 ESG 보고의 비구조화된 데이터와 복잡한 요구사항을 해결하기 위해 식별, 측정, 보고, 참여, 개선 단계를 통합하고 AI 에이전트를 활용하여 정적인 보고 프로세스를 동적이고 적응적인 지속 가능성 거버넌스 시스템으로 전환하는 에이전트 기반 ESG 라이프사이클 관리 프레임워크를 제안합니다.
이 논문은 생성형 AI 와 에이전트 도구의 급속한 도입으로 인해 시의성과 실용성이 떨어지는 기존 연구의 한계를 극복하기 위해, 통제된 연구와 실제 산업 현장 사이의 간극을 메우고 재사용 가능한 맥락을 갖춘 실천적 증거를 신속하게 생성할 수 있는 AI 통합 애자일 교육 플랫폼을 제안합니다.
LabConstrictor 는 DevOps 전문 지식이 필요 없이 Jupyter 노트북을 CI/CD 파이프라인을 통해 일회성 설치 가능한 데스크톱 애플리케이션으로 자동 변환하여 생명과학 연구 소프트웨어의 배포 장벽을 낮추고 재사용성을 증진시킵니다.
이 논문은 도메인 전문성을 가진 AI 에이전트 구축을 위한 새로운 패러다임인 '양육 우선 개발 (Nurture-First Development)'을 제안하며, 에이전트를 초기에 최소한의 구조로 설정한 후 전문가와의 대화적 상호작용을 통해 지식을 점진적으로 응고화하고 구조화하는 '지식 결정화 사이클'을 핵심 메커니즘으로 삼아 기존의 코드나 프롬프트 우선 접근법의 한계를 극복함을 설명합니다.
이 논문은 81 명의 학생을 대상으로 한 설문 연구를 통해 개발자의 기분 특성과 상황적 요인이 텍스트 기반 메시지의 감정 인식에 미치는 영향을 분석한 결과, 개인의 감정 인식은 안정적이지 않으며 문장 자체의 모호성에 크게 의존함을 밝혔습니다.
이 논문은 자율 주행 에이전트의 검증 효율성을 높이기 위해 시공간 논리 (LTLf) 로 표현된 형식 명세를 기반으로 다양한 시나리오를 체계적으로 생성하는 프레임워크인 STADA 를 제안하며, 기존 방법 대비 더 높은 커버리지와 적은 시뮬레이션 횟수를 달성함을 보여줍니다.
이 논문은 CVE 데이터베이스를 기반으로 새로운 취약점이 지속적으로 통합될 수 있는 확장 가능한 벤치마크인 TOSSS 를 제안하여, 대규모 언어 모델이 보안과 취약한 코드 조각 중 올바른 선택을 할 수 있는 능력을 0 에서 1 사이의 점수로 평가하는 방법을 제시합니다.
이 논문은 머신러닝과 자연어 처리 기반의 인공지능이 요구사항 관리부터 코드 생성 및 테스트까지 반복적 작업을 자동화하여 애자일 개발의 효율성을 높이고 소프트웨어 공학의 혁신을 촉진한다는 실증적 연구 결과를 제시합니다.
이 논문은 소프트웨어 개발 수명 주기 (SDLC) 관점에서 178 개의 벤치마크를 체계적으로 분석하여 현재 평가 기준이 구현 단계에 편중되어 있고 요구사항 정의 및 설계 단계와 데이터 오염 방지 전략이 부족하다는 점을 지적하며, 코드 대규모 언어 모델과 에이전트의 실제 적용성을 높이기 위한 향후 연구 방향을 제시합니다.
이 논문은 시스템 오브 시스템과 디지털 트윈을 통합한 '시스템 오브 트윈드 시스템'의 개념을 정립하기 위해 2,500 건 이상의 문헌을 검토하여 80 건을 선정하고, 기존 이론과 호환되는 분류 체계를 제시하는 체계적 문헌 고찰을 수행합니다.
이 논문은 ROS 기반 로봇 시스템의 복잡성을 관리하고 추적성을 확보하기 위해, SysML 메타모델인 MeROS 와 V-모델 기반의 체계적인 방법론을 제안합니다.
이 논문은 자연어와 코드 스니펫을 활용한 하이브리드 쿼리에 대한 기존 모델의 한계를 해결하기 위해, 다중 관점의 대비 학습과 표현 분포 일관성 학습을 통해 모달리티 간 협업과 언어 간 일반화 능력을 강화한 자기지도형 프레임워크 'UniCoR'을 제안하고 그 우수성을 입증합니다.
이 논문은 항공이나 원자력 분야의 전통적 안전 사례 접근법이 역동적이고 예측 불가능한 현대 AI 시스템의 특성을 포착하지 못한다는 점을 지적하고, AI 고유의 주장·논증·증거 분류 체계와 재사용 가능한 템플릿을 제시하여 진화하는 AI 시스템에 대한 신뢰할 수 있고 감사 가능하며 적응적인 안전 사례 구축을 위한 체계적인 방법론을 제안합니다.
이 논문은 컨테이너 기반의 무거운 인프라 의존성을 제거하고 커널 수준의 격리 메커니즘을 활용하여 디스크 사용량과 환경 준비 시간을 획기적으로 줄이면서도 RL 기반 소프트웨어 엔지니어링 에이전트 훈련의 확장성을 실현한 'SWE-MiniSandbox'를 제안합니다.
이 논문은 현재 대규모 언어 모델이 긴 문맥을 직접적으로 추론하여 버그를 수정하는 데는 한계가 있으며, 에이전트 워크플로우의 성공은 긴 문맥 처리 능력보다는 작업을 짧은 문맥 단계로 분해하는 데서 비롯된다는 점을 SWE-bench Verified 실험을 통해 규명했습니다.
이 논문은 AI 코드 에이전트가 소프트웨어 아키텍처를 이해하고 일관된 구조적 신념을 유지하는 능력을 평가하기 위해 '코드 공간 이론 (ToCS)'이라는 새로운 벤치마크를 제안하고, 에이전트의 능동적 탐색, 구조화된 신념 유지, 그리고 모델 크기에 따른 신념 안정성 등 세 가지 핵심 발견을 제시합니다.