Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
이 논문은 학술 연구와 실제 응용에 광범위하게 활용되고 있는 '섀도우 API'가 공식 LLM 모델과 성능, 안전성, 정체성 측면에서 심각한 불일치를 보이며 사용자를 기만하고 연구의 신뢰성을 훼손한다는 사실을 체계적으로 규명합니다.
177 편의 논문
이 논문은 학술 연구와 실제 응용에 광범위하게 활용되고 있는 '섀도우 API'가 공식 LLM 모델과 성능, 안전성, 정체성 측면에서 심각한 불일치를 보이며 사용자를 기만하고 연구의 신뢰성을 훼손한다는 사실을 체계적으로 규명합니다.
본 논문은 NLBSE'26 대회에서 Java, Python, Pharo 코드의 주석 분류를 위해 LoRA 를 활용한 4 개의 트랜스포머 인코더를 앙상블한 LoRA-MME 를 제안하고, 높은 분류 정확도와 높은 계산 비용 간의 트레이드오프를 확인했습니다.
이 논문은 그래프 신경망 (GNN) 임베딩과 런타임 설계 통계를 결합하여 다중 속성 검증 (MPV) 에서 속성 클러스터링을 지능화하고 경계 모델 검사 (BMC) 의 성능을 획기적으로 개선하는 새로운 하이브리드 접근법인 MPBMC 를 제안합니다.
이 논문은 31 개의 LLM 안전성 벤치마크를 분석하여 학술적 영향력과 코드 품질 간에 유의미한 상관관계가 없으며, 특히 코드 준비도와 윤리적 고려 사항이 현저히 부족함을 밝혀내어 저명 연구자들의 선도적 역할 필요성을 강조합니다.
이 논문은 물리적 설계 Tcl 스크립트 생성의 데이터 부족 문제를 해결하기 위해 다단계 데이터 합성 파이프라인을 통해 구축된 대규모 언어 모델 'iScript'와 이를 평가하는 벤치마크를 제안하고, 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증했습니다.
이 논문은 기존 벤치마크의 한계를 극복하고 C/C++ 코드의 의미적 이해와 강건성을 평가하기 위해 실제 GitHub 저장소에서 파생된 대규모 데이터셋 'CLARC'를 제안하고, 식별자 익명화 및 저수준 컴파일 등 다양한 도전적 환경에서 기존 모델들이 어휘적 특징에 과도하게 의존한다는 사실을 규명했습니다.
이 논문은 왈롱 지역의 다양한 산업 분야를 대상으로 사이버 물리 시스템 (CPS) 의 견고성 테스트 현황, 요구사항 공학 및 시스템 설계와의 연관성, 주요 도전 과제와 연구 동향 간의 격차를 조사한 산업 설문 결과를 제시합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.
이 논문은 500 개의 사용자 스토리로 구성된 데이터셋을 활용하여 GPT-4, Claude 3, Gemini 의 BDD 시나리오 생성 능력을 평가한 결과, Claude 3 이 인간 전문가와 LLM 평가자로부터 가장 높은 점수를 받았으며, 모델별 최적 프롬프트 기법과 입력 품질의 중요성, 그리고 온도 0 과 top_p 1.0 설정이 가장 효과적임을 규명했습니다.
이 논문은 MOOSE 시뮬레이션 환경의 복잡한 입력 파일 설정과 디버깅을 자연어 기반 대화형 워크플로우, 검색 증강 생성 (RAG), 그리고 MOOSE 런타임 검증이 결합된 도구 기반 AI 에이전트 'MOOSEnger'를 통해 해결하여, 기존 LLM 단독 방식 대비 실행 성공률을 0.08 에서 0.93 으로 획기적으로 향상시켰음을 제시합니다.
이 논문은 기존 벤치마크가 간과한 기업 및 API 기반 LLM 응용 분야의 요구사항을 반영하기 위해, 실제 사용 패턴에 기반한 새로운 지시 따르기 평가 기준인 'FireBench'를 제안하고 11 개의 LLM 에 대한 평가 결과와 인사이트를 제공합니다.
이 연구는 유럽 공공부문의 오픈소스 프로그램 사무소 (OSPO) 를 6 가지 유형으로 분류하고, 각 유형의 조직 구조와 역할을 분석하여 공기관이 오픈소스 소프트웨어 도입을 위한 전략적 역량을 구축하고 디지털 주권을 강화할 수 있는 실질적인 지침을 제시합니다.
이 논문은 VR 앱 스토어의 사용자 리뷰를 기반으로 자동 생성된 페르소나 시스템을 개발하여 VR 교육 과정에서 접근성 요구사항을 도출하고 학생들의 공감 능력을 효율적으로 향상시켰음을 보여줍니다.
이 논문은 모든 프로그래밍 언어와 플랫폼에서 코드 저장소의 의존성 해결, 컴파일, 테스트 결과 추출을 자동화하는 최초의 에이전트인 'RepoLaunch'를 소개하고, 이를 통해 인간의 개입을 최소화하면서 소프트웨어 공학 데이터셋을 대규모로 생성할 수 있는 파이프라인을 제안합니다.
이 연구는 LLM 시대 이전의 스택 오버플로우 기여 동기로서 미국, 중국, 러시아의 문화적 차이를 정성적 및 정량적 분석을 통해 규명하고, 자기 홍보와 학습 지향적 참여 등 지역별 동기 차이가 플랫폼 활동에 미치는 영향을 고찰했습니다.
이 논문은 모델 기반 공학 연구에서 데이터셋의 품질과 대표성을 체계적으로 평가하여 연구 간 비교 가능성과 재현성을 높이기 위한 '모델 데이터셋 벤치마킹 프레임워크'와 통합 인프라를 제안합니다.
이 논문은 LLM 이 일반 프로그래밍 언어보다 도메인 특화 언어 (DSL) 코드 생성 능력이 떨어지는 문제를 해결하기 위해, 생성된 코드의 잘 형성됨과 정확성을 평가하는 프레임워크를 제안하고 이를 OCL 및 Alloy 와 같은 제약 언어에 적용하여 실험적 통찰과 개선 방안을 제시합니다.
본 논문은 21 만 개 이상의 테스트 케이스를 대상으로 4 가지 대형 언어 모델 (LLM) 과 EvoSuite 를 비교 분석한 대규모 실증 연구를 통해, 추론 기반 프롬프트가 테스트 생성의 신뢰성을 향상시키지만 여전히 높은 컴파일 실패율과 유지보수성 문제를 안고 있어 자동화된 검증 및 검색 기반 정제와 결합된 하이브리드 접근법이 필요함을 규명했습니다.
이 논문은 자율주행차의 인식 시스템이 도로 설계 가이드라인을 준수하는 현실적인 노변 물체 배치 (예: 쓰레기통) 만으로도 심각한 오인식 및 교통법규 위반을 유발할 수 있음을 보여주기 위해 제안한 'TrashFuzz'라는 블랙박스 페이징 공격 기법과 그 실험 결과를 요약합니다.
이 논문은 Uppaal 도구를 활용하여 분산 미들웨어 CARE 를 확률적 타이머 자동자 네트워크로 형식화하고, 이를 통해 검증 및 테스트를 수행함으로써 오픈소스 분산 애플리케이션의 신뢰성을 강화하는 방법론을 제시합니다.