Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators
이 논문은 LLM 을 활용해 문법 규칙을 추출하고 재사용 가능한 생성기를 합성하여 구문 오류를 방지하고 실행 비용을 절감하면서도 Z3 와 cvc5 같은 주요 SMT 솔버에서 43 개의 버그를 발견한 'Once4All'이라는 새로운 스켈레톤 기반 퍼징 프레임워크를 제안합니다.
177 편의 논문
이 논문은 LLM 을 활용해 문법 규칙을 추출하고 재사용 가능한 생성기를 합성하여 구문 오류를 방지하고 실행 비용을 절감하면서도 Z3 와 cvc5 같은 주요 SMT 솔버에서 43 개의 버그를 발견한 'Once4All'이라는 새로운 스켈레톤 기반 퍼징 프레임워크를 제안합니다.
이 논문은 ISO/IEC 25010 품질 모델을 기반으로 문헌 검토, 산업계 워크숍, 실증 분석을 수행하여 생성된 코드의 비기능적 품질 (보안, 유지보수성, 성능 등) 에 대한 학술적 관심과 산업계의 우선순위 및 실제 모델 행동 간의 불일치를 드러내고, LLM 기반 코드 생성 파이프라인에 품질 보증 메커니즘을 통합할 필요성을 강조합니다.
이 논문은 실행 가능한 도구 실행을 먼저 수행하고 이를 역으로 추론하여 작업을 생성하는 'DIVE' 프레임워크를 제안함으로써, 데이터 양 증가보다 다양성 확장이 도구 사용 LLM 의 일반화 성능을 획기적으로 향상시킨다는 것을 입증했습니다.
이 논문은 코드 리뷰 에이전트의 실제 활용성을 평가하기 위해 CR-Bench 데이터셋과 CR-Evaluator 평가 파이프라인을 제안하고, 단순한 해결률 지표의 한계를 지적하며 문제 해결과 불필요한 발견 간의 숨겨진 트레이드오프를 규명합니다.
이 논문은 LLM 을 활용한 소프트웨어 설계의 품질을 향상시키기 위해 사용자 목표를 단계별 엔지니어링 절차와 자기 질문 (QoT) 체인으로 변환하는 새로운 프레임워크를 제안하고, 다양한 백엔드 도메인에서 모델 크기와 작업 복잡도에 따른 품질 개선 효과를 검증합니다.
이 논문은 규칙 기반 정적 분석과 변환 도구를 활용하는 두 개의 하위 에이전트 (로컬라이제이션 및 편집) 로 구성된 iSWE 에이전트를 제안하여, 기존 모델들이 주로 파이썬에 집중했던 것과 달리 자바 코드 리포지토리의 이슈 해결 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 고위험 분야에서 AI 에이전트의 사회적, 법적, 윤리적, 공감적, 문화적 규범 (SLEEC) 을 추상적 원칙에서 검증 가능한 구체적 요구사항으로 전환하는 체계적인 운영화 프로세스와 연구 의제를 제시합니다.
이 논문은 복잡한 강화학습 환경을 수개월의 엔지니어링 없이 10 달러 미만의 비용으로 고성능 구현체로 자동 변환하는 재사용 가능한 레시피를 제시하며, 이를 통해 다양한 환경에서 기존 대비 최대 22,320 배의 성능 향상과 의미적 동등성을 입증했습니다.
이 논문은 양자 물리학에 대한 사전 지식이 없는 다양한 배경의 학습자를 위해, 상호작용형 양자 회로 시뮬레이터를 기반으로 한 온라인 강의를 개발하여 진입 장벽을 낮추고 즉각적인 피드백을 제공하는 방법을 제안합니다.
이 논문은 오픈드라이브 (OPENDRIVE) 맵 데이터와 그래프 신경망을 활용해 과거 테스트 데이터를 기반으로 고위험 시나리오를 예측·선별하는 'ScenarioFuzz'를 제안함으로써, 기존 방법 대비 시간 비용을 60.3% 절감하고 단위 시간당 발견되는 오류 시나리오를 103% 증가시켜 자율주행 시스템의 안전성을 검증하는 새로운 패러다임을 제시합니다.
이 논문은 자연어 기반의 프로그래머와 검사자 에이전트, 그리고 사용자 개입 및 외부 지식 통합 메커니즘을 통해 코드 없이도 강력한 데이터 분석을 가능하게 하는 오픈소스 멀티에이전트 시스템 'LAMBDA'를 제안합니다.
이 논문은 양자 컴퓨팅의 위협에 대응하기 위해 모델 기반 시스템 공학 기법을 활용하여 양자 키 분배 네트워크 아키텍처의 진화를 체계적으로 모델링하고, 이해관계자의 요구를 반영한 유연한 네트워크 설계를 위한 변이성 기반 프레임워크를 제안합니다.
이 논문은 기존 BDI 에이전트 모델의 실시간 제약 대응 한계를 극복하기 위해 시간과 자원 관리를 명시적으로 통합한 새로운 실시간 BDI 에이전트 제어 루프 모델을 제안하고, 자원 수집 비디오 게임을 통한 구현 및 검증을 제시합니다.
이 논문은 개발자의 개입을 최소화하여 기존 프로그램의 민감한 함수를 식별하고 TEE(신뢰 실행 환경) 호환 버전으로 자동 변환하는 최초의 LLM 기반 도구인 AUTOTEE 를 제안하고, 자바와 파이썬 환경에서 높은 정확도와 성공률을 입증합니다.
이 논문은 기존 벤치마크의 데이터 오염과 확장성 한계를 극복하기 위해 의미 보존 변이를 활용한 새로운 평가 프레임워크를 제안하고, 대규모 실험을 통해 현재 대형 언어 모델의 결함 국소화 능력이 실제 의미론적 추론보다는 문법적 단서에 과도하게 의존하고 있음을 규명했습니다.
본 논문은 대규모 언어 모델 (LLM) 의 코드 이해 능력과 정적 분석을 결합하여 API 테스트의 피트니스 플래토 문제를 해결하고, 기존 도구 대비 라인 커버리지와 돌연변이 정확도를 획기적으로 향상시킨 새로운 화이트박스 API 테스트 기법인 'MioHint'를 제안합니다.
본 논문은 PAL Robotics 의 산업용 자율 이동 로봇 (AMR) 의 안전성을 확보하기 위해 인간 행동의 불확실성을 시뮬레이션하고 요구사항 위반 시나리오를 생성하는 비전 언어 모델 (VLM) 기반의 RVSG 테스트 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 계획, 실행, 테스트 및 자기 반성을 통해 소프트웨어 리팩토링을 자동화하는 다중 에이전트 LLM 프레임워크인 RefAgent 를 제안하고, 오픈 소스 자바 프로젝트에서의 실험을 통해 기존 단일 에이전트 방식 및 기존 도구 대비 우수한 코드 품질 향상과 리팩토링 기회 식별 능력을 입증합니다.
이 확장 초록은 런타임에 구조와 행동을 동적으로 적응시키고 소스 코드를 생성·테스트·재배포하여 시장 출시 시간을 단축하는 새로운 연구 분야인 '자가 코딩 정보 시스템'을 제안하고, 이를 정의하며 기대 효과와 연구 방향을 논의합니다.
이 연구는 32 명의 Java 초보자를 대상으로 한 아이 트래킹 실험을 통해, 추출 리팩토링이 복잡한 작업에서는 이해도와 성능을 향상시키지만 단순한 작업에서는 오히려 탐색 빈도와 소요 시간을 증가시켜 초보자에게는 과도한 모듈화가 비효율적일 수 있음을 밝혔습니다.