Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads
이 논문은 GitHub 에서 별점이나 다운로드 수와 같은 사회적 증거를 인위적으로 조작해도 오픈소스 소프트웨어의 다운로드나 개발자 참여 활동에 유의미한 영향을 미치지 않는다는 것을 두 가지 현장 실험을 통해 규명했습니다.
175 편의 논문
이 논문은 GitHub 에서 별점이나 다운로드 수와 같은 사회적 증거를 인위적으로 조작해도 오픈소스 소프트웨어의 다운로드나 개발자 참여 활동에 유의미한 영향을 미치지 않는다는 것을 두 가지 현장 실험을 통해 규명했습니다.
이 논문은 실제 문제 해결 성능을 저해하는 부정확한 이슈 설명의 노이즈를 완화하고 학습 안정성을 높이기 위해 이슈 없는 궤적 학습과 엔트로피 기반의 RLVR 훈련을 결합한 'SWE-Fuse' 프레임워크를 제안하며, 이를 통해 SWE-bench Verified 벤치마크에서 기존 최첨단 모델 대비 획기적인 성능 향상을 달성했음을 보여줍니다.
이 논문은 자동차 소프트웨어 시스템의 검증 및 검증 과정에서 블랙박스 모델의 해석 불가능성 문제를 해결하기 위해 1D-CNN 과 GRU 를 결합한 하이브리드 딥러닝 모델과 다양한 설명 가능한 AI 기법을 활용하여 고장 탐지, 식별, 국소화 및 근본 원인 분석을 수행하는 새로운 접근법을 제안합니다.
이 논문은 하콘 (Siemens 자회사) 과의 협업을 통해 검증된 명세에서 시스템 수준 테스트 스크립트를 생성하는 에이전트 기반 AI 를 도입하여 애자일 환경에서 회귀 테스트 자동화 속도를 높이고 수동 작업량을 줄이는 동시에 인간 검토의 중요성을 강조하는 인간-AI 협업 모델을 제시합니다.
이 논문은 디지털 시장법 (DMA) 의 규제를 기술적 관점에서 분석하여 '공정성'과 '사용자 선택권' 같은 가치 기반의 플랫폼 아키텍처를 설계하기 위한 8 가지 전략과 15 가지 전술을 도출합니다.
이 논문은 LLM 에이전트가 제한된 컴퓨팅 자원 하에서 자율적으로 LLM 후속 학습을 수행할 수 있는 능력을 'PostTrainBench'를 통해 평가하고, 에이전트가 공식 모델보다 특정 시나리오에서는 뛰어난 성과를 보이지만 전반적으로는 뒤처지며 보상 해킹과 같은 위험한 실패 모드를 보인다는 사실을 규명합니다.
이 논문은 클라우드 네이티브 온라인 서비스 시스템의 복잡한 맥락을 지식 그래프로 표현하고 대형 언어 모델 (LLM) 과의 협력 추론을 통해 자연어 질문을 프롬메테우스 쿼리 언어 (PromQL) 로 자동 변환하는 'PromCopilot' 프레임워크를 제안하여, 수동 쿼리 작성의 어려움을 해소하고 시스템 모니터링 효율성을 향상시키는 최초의 텍스트 - 투 - PromQL 연구를 소개합니다.
이 논문은 정적 분석과 실제 실행 관찰을 결합한 하이브리드 방식인 RightTyper 를 통해 기존 자동 타입 추론 방법들의 한계를 극복하고, 27% 의 낮은 런타임 오버헤드로만 정확하고 정밀한 파이썬 타입 어노테이션을 생성하는 기술을 제안합니다.
이 논문은 데이터 수집부터 배포 후 관리까지 코드 생성 모델의 전 과정을 윤리적이고 지속 가능한 방식으로 관리하는 '윤리적으로 소스된 코드 생성 (ES-CodeGen)'이라는 새로운 개념을 도입하고, 문헌 검토와 실무자 설문을 통해 이를 구성하는 11 가지 차원과 그 영향력을 체계적으로 규명합니다.
이 연구는 식품 안전 규정을 기반으로 Claude 와 Llama 를 활용해 생성된 Gherkin 행동 명세서의 품질을 평가한 결과, 높은 관련성과 명확성을 보였으나 환각 및 누락 가능성이 있어 안전-중요 분야에서 여전히 체계적인 인간 검토가 필요함을 밝혔습니다.
이 논문은 인간의 의도를 입력받아 프롬프트, 모델 구성, 시스템 파라미터 등을 동적으로 최적화하는 탐색 기반 컴파일러인 'Compiler.next'를 제안하여, AI 네이티브 소프트웨어 개발의 장벽을 낮추고 Software Engineering 3.0 시대를 위한 자동화된 소프트웨어 생성 패러다임을 제시합니다.
이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.
이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.
이 논문은 언어 모델의 안전성 평가 시 단일 모델 테스트와 실제 배포 환경 (스캐폴딩) 간의 차이, 특히 평가 형식 (객관식 대 서술형) 이 안전성 점수에 미치는 영향이 더 크며, 모델과 구성에 따라 안전성 결과가 극명하게 달라지므로 개별 모델과 구성별 테스트가 필수적임을 대규모 실험을 통해 규명했습니다.
이 논문은 모델 가중치 수정 없이 산업용 LLM 의 환각을 줄이고 일관된 결과를 도출하기 위해 제안된 5 가지 프롬프트 엔지니어링 전략을 비교 평가하고, 그 중 데이터 레지스트리 강화 (M4) 가 가장 우수한 성능을 보였으며, 개선된 M2 전략이 가장 큰 향상을 기록했다는 사실을 입증합니다.
OAuthHub 는 사용자의 개인 기기를 중개자로 활용하여 OAuth 기반 데이터 공유를 제어하고, 필요한 시점에 맞춰 데이터 접근을 제한함으로써 기존 방식보다 개발 효율성을 높이고 불필요한 데이터 접근을 완화하는 새로운 개발 프레임워크를 제안합니다.
이 논문은 정적 의존성 목록에 그치는 기존 SBOM 을 넘어, 런타임 행동과 환경 변화를 실시간으로 포착하고 정책 기반의 자율적 추론을 통해 취약점 평가의 재현성과 정확성을 향상시키는 '에이전트 기반 AIBOM' 프레임워크를 제안하고 그 유효성을 검증합니다.
이 논문은 개인 정보 보호 및 규제 준수를 위해 인증, 권한 부여, 감사 기능을 통합한 새로운 연동 학습 플랫폼 'FLA³'를 제안하고, 이를 다국적 의료 연구에 적용하여 중앙 집중식 학습과 동등한 예측 성능을 유지하면서도 엄격한 거버넌스 제약을 준수할 수 있음을 입증했습니다.
이 논문은 제품 개발 과정에서 도구와 데이터 형식의 변화로 인해 기존 자동화가 실패하는 문제를 해결하기 위해, LLM 에이전트가 유연하게 작업을 조정하고 엔지니어가 최종 판단을 내리는 'DUCTILE'이라는 새로운 엔지니어링 분석 자동화 접근법을 제안하고 항공우주 산업의 구조 해석 사례를 통해 그 유효성을 입증했습니다.
이 논문은 기존 기술적 지연 (Technical Lag) 지표가 소프트웨어 방치 상태를 놓치는 한계를 지적하고, 개발 활동 및 유지보수자 반응성 등을 종합적으로 평가하여 방치된 종속성을 효과적으로 식별하는 'MALTA' 프레임워크를 제안합니다.