iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

이 논문은 물리적 설계 Tcl 스크립트 생성의 데이터 부족 문제를 해결하기 위해 다단계 데이터 합성 파이프라인을 통해 구축된 대규모 언어 모델 'iScript'와 이를 평가하는 벤치마크를 제안하고, 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증했습니다.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

이 논문은 기존 벤치마크의 한계를 극복하고 C/C++ 코드의 의미적 이해와 강건성을 평가하기 위해 실제 GitHub 저장소에서 파생된 대규모 데이터셋 'CLARC'를 제안하고, 식별자 익명화 및 저수준 컴파일 등 다양한 도전적 환경에서 기존 모델들이 어휘적 특징에 과도하게 의존한다는 사실을 규명했습니다.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

이 논문은 500 개의 사용자 스토리로 구성된 데이터셋을 활용하여 GPT-4, Claude 3, Gemini 의 BDD 시나리오 생성 능력을 평가한 결과, Claude 3 이 인간 전문가와 LLM 평가자로부터 가장 높은 점수를 받았으며, 모델별 최적 프롬프트 기법과 입력 품질의 중요성, 그리고 온도 0 과 top_p 1.0 설정이 가장 효과적임을 규명했습니다.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

이 논문은 MOOSE 시뮬레이션 환경의 복잡한 입력 파일 설정과 디버깅을 자연어 기반 대화형 워크플로우, 검색 증강 생성 (RAG), 그리고 MOOSE 런타임 검증이 결합된 도구 기반 AI 에이전트 'MOOSEnger'를 통해 해결하여, 기존 LLM 단독 방식 대비 실행 성공률을 0.08 에서 0.93 으로 획기적으로 향상시켰음을 제시합니다.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

이 연구는 유럽 공공부문의 오픈소스 프로그램 사무소 (OSPO) 를 6 가지 유형으로 분류하고, 각 유형의 조직 구조와 역할을 분석하여 공기관이 오픈소스 소프트웨어 도입을 위한 전략적 역량을 구축하고 디지털 주권을 강화할 수 있는 실질적인 지침을 제시합니다.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

이 논문은 모든 프로그래밍 언어와 플랫폼에서 코드 저장소의 의존성 해결, 컴파일, 테스트 결과 추출을 자동화하는 최초의 에이전트인 'RepoLaunch'를 소개하고, 이를 통해 인간의 개입을 최소화하면서 소프트웨어 공학 데이터셋을 대규모로 생성할 수 있는 파이프라인을 제안합니다.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

이 연구는 LLM 시대 이전의 스택 오버플로우 기여 동기로서 미국, 중국, 러시아의 문화적 차이를 정성적 및 정량적 분석을 통해 규명하고, 자기 홍보와 학습 지향적 참여 등 지역별 동기 차이가 플랫폼 활동에 미치는 영향을 고찰했습니다.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

이 논문은 LLM 이 일반 프로그래밍 언어보다 도메인 특화 언어 (DSL) 코드 생성 능력이 떨어지는 문제를 해결하기 위해, 생성된 코드의 잘 형성됨과 정확성을 평가하는 프레임워크를 제안하고 이를 OCL 및 Alloy 와 같은 제약 언어에 적용하여 실험적 통찰과 개선 방안을 제시합니다.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

본 논문은 21 만 개 이상의 테스트 케이스를 대상으로 4 가지 대형 언어 모델 (LLM) 과 EvoSuite 를 비교 분석한 대규모 실증 연구를 통해, 추론 기반 프롬프트가 테스트 생성의 신뢰성을 향상시키지만 여전히 높은 컴파일 실패율과 유지보수성 문제를 안고 있어 자동화된 검증 및 검색 기반 정제와 결합된 하이브리드 접근법이 필요함을 규명했습니다.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

이 논문은 자율주행차의 인식 시스템이 도로 설계 가이드라인을 준수하는 현실적인 노변 물체 배치 (예: 쓰레기통) 만으로도 심각한 오인식 및 교통법규 위반을 유발할 수 있음을 보여주기 위해 제안한 'TrashFuzz'라는 블랙박스 페이징 공격 기법과 그 실험 결과를 요약합니다.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs