cs.SE 편의 논문 | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

이 논문은 학술 연구와 실제 응용에 광범위하게 활용되고 있는 '섀도우 API'가 공식 LLM 모델과 성능, 안전성, 정체성 측면에서 심각한 불일치를 보이며 사용자를 기만하고 연구의 신뢰성을 훼손한다는 사실을 체계적으로 규명합니다.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

본 논문은 NLBSE'26 대회에서 Java, Python, Pharo 코드의 주석 분류를 위해 LoRA 를 활용한 4 개의 트랜스포머 인코더를 앙상블한 LoRA-MME 를 제안하고, 높은 분류 정확도와 높은 계산 비용 간의 트레이드오프를 확인했습니다.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

이 논문은 그래프 신경망 (GNN) 임베딩과 런타임 설계 통계를 결합하여 다중 속성 검증 (MPV) 에서 속성 클러스터링을 지능화하고 경계 모델 검사 (BMC) 의 성능을 획기적으로 개선하는 새로운 하이브리드 접근법인 MPBMC 를 제안합니다.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

이 논문은 31 개의 LLM 안전성 벤치마크를 분석하여 학술적 영향력과 코드 품질 간에 유의미한 상관관계가 없으며, 특히 코드 준비도와 윤리적 고려 사항이 현저히 부족함을 밝혀내어 저명 연구자들의 선도적 역할 필요성을 강조합니다.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

이 논문은 물리적 설계 Tcl 스크립트 생성의 데이터 부족 문제를 해결하기 위해 다단계 데이터 합성 파이프라인을 통해 구축된 대규모 언어 모델 'iScript'와 이를 평가하는 벤치마크를 제안하고, 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증했습니다.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

이 논문은 기존 벤치마크의 한계를 극복하고 C/C++ 코드의 의미적 이해와 강건성을 평가하기 위해 실제 GitHub 저장소에서 파생된 대규모 데이터셋 'CLARC'를 제안하고, 식별자 익명화 및 저수준 컴파일 등 다양한 도전적 환경에서 기존 모델들이 어휘적 특징에 과도하게 의존한다는 사실을 규명했습니다.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

이 논문은 왈롱 지역의 다양한 산업 분야를 대상으로 사이버 물리 시스템 (CPS) 의 견고성 테스트 현황, 요구사항 공학 및 시스템 설계와의 연관성, 주요 도전 과제와 연구 동향 간의 격차를 조사한 산업 설문 결과를 제시합니다.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

이 논문은 500 개의 사용자 스토리로 구성된 데이터셋을 활용하여 GPT-4, Claude 3, Gemini 의 BDD 시나리오 생성 능력을 평가한 결과, Claude 3 이 인간 전문가와 LLM 평가자로부터 가장 높은 점수를 받았으며, 모델별 최적 프롬프트 기법과 입력 품질의 중요성, 그리고 온도 0 과 top_p 1.0 설정이 가장 효과적임을 규명했습니다.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

이 논문은 MOOSE 시뮬레이션 환경의 복잡한 입력 파일 설정과 디버깅을 자연어 기반 대화형 워크플로우, 검색 증강 생성 (RAG), 그리고 MOOSE 런타임 검증이 결합된 도구 기반 AI 에이전트 'MOOSEnger'를 통해 해결하여, 기존 LLM 단독 방식 대비 실행 성공률을 0.08 에서 0.93 으로 획기적으로 향상시켰음을 제시합니다.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

이 논문은 기존 벤치마크가 간과한 기업 및 API 기반 LLM 응용 분야의 요구사항을 반영하기 위해, 실제 사용 패턴에 기반한 새로운 지시 따르기 평가 기준인 'FireBench'를 제안하고 11 개의 LLM 에 대한 평가 결과와 인사이트를 제공합니다.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

이 연구는 유럽 공공부문의 오픈소스 프로그램 사무소 (OSPO) 를 6 가지 유형으로 분류하고, 각 유형의 조직 구조와 역할을 분석하여 공기관이 오픈소스 소프트웨어 도입을 위한 전략적 역량을 구축하고 디지털 주권을 강화할 수 있는 실질적인 지침을 제시합니다.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

이 논문은 VR 앱 스토어의 사용자 리뷰를 기반으로 자동 생성된 페르소나 시스템을 개발하여 VR 교육 과정에서 접근성 요구사항을 도출하고 학생들의 공감 능력을 효율적으로 향상시켰음을 보여줍니다.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

이 논문은 모든 프로그래밍 언어와 플랫폼에서 코드 저장소의 의존성 해결, 컴파일, 테스트 결과 추출을 자동화하는 최초의 에이전트인 'RepoLaunch'를 소개하고, 이를 통해 인간의 개입을 최소화하면서 소프트웨어 공학 데이터셋을 대규모로 생성할 수 있는 파이프라인을 제안합니다.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

이 연구는 LLM 시대 이전의 스택 오버플로우 기여 동기로서 미국, 중국, 러시아의 문화적 차이를 정성적 및 정량적 분석을 통해 규명하고, 자기 홍보와 학습 지향적 참여 등 지역별 동기 차이가 플랫폼 활동에 미치는 영향을 고찰했습니다.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

이 논문은 모델 기반 공학 연구에서 데이터셋의 품질과 대표성을 체계적으로 평가하여 연구 간 비교 가능성과 재현성을 높이기 위한 '모델 데이터셋 벤치마킹 프레임워크'와 통합 인프라를 제안합니다.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

이 논문은 LLM 이 일반 프로그래밍 언어보다 도메인 특화 언어 (DSL) 코드 생성 능력이 떨어지는 문제를 해결하기 위해, 생성된 코드의 잘 형성됨과 정확성을 평가하는 프레임워크를 제안하고 이를 OCL 및 Alloy 와 같은 제약 언어에 적용하여 실험적 통찰과 개선 방안을 제시합니다.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

← 이전 다음 →

cs.SE