cs.SE 편의 논문 | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

이 논문은 26 명의 소프트웨어 엔지니어를 대상으로 한 연구를 통해 LLM 의 부정확한 응답이 작업 포기 확률을 11 배 증가시키는 등 주요 실패 요인을 규명하고, 이를 극복하기 위한 프롬프트 정교화 등의 완화 전략과 향후 도구의 방향성을 제시합니다.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

이 논문은 51 편의 문헌을 분석하여 로그 냄새 (log smells) 에 대한 9 가지 분류 체계를 제시하고, 이를 해결하는 기존 도구들의 현황과 연구 과제를 규명하여 개발자의 로그 코드 품질 향상을 돕습니다.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

이 논문은 자연어 쿼리를 관계 대수 (Relational Algebra) 를 통한 중간 표현으로 변환하여 실행 가능한 코드를 생성하는 'GateLens'라는 LLM 에이전트 아키텍처를 제안함으로써, 자동차 소프트웨어 릴리스 분석에서 기존 CoT 기반 시스템보다 복잡한 질의 처리 정확도와 속도를 획기적으로 개선하고 분석 시간을 80% 이상 단축하는 성과를 입증했습니다.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

이 논문은 7 개 프로그래밍 언어의 3 만 개 이상의 실제 취약점 패치를 활용하여 함수 및 라인 단위에서 대규모 언어 모델 (LLM) 이 기존 사전 학습 언어 모델 (PLM) 보다 다국어 취약점 탐지, 특히 고위험 취약점 식별에서 훨씬 우수한 성능을 보임을 실증적으로 규명했습니다.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

이 논문은 정적 타입 언어로 작성된 수백만 개의 GitHub 저장소를 대규모로 분석하여 실제 세계의 부동소수점 연산 사용 패턴을 규명하고, 기존 벤치마크의 대표성을 평가하며 1,000 만 개의 실제 부동소수점 함수 데이터셋을 공개함으로써 향후 부동소수점 자동 추론 기술 개발에 기여합니다.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

이 논문은 긴 사고 과정 (CoT) 이 항상 성능 향상을 보장하지 않는다는 점을 실증적으로 규명하고, 생성된 출력에 기반하여 적응적으로 CoT 를 압축함으로써 지연 시간과 메모리 사용량을 줄이면서도 정확도를 유지하는 새로운 프레임워크인 SEER 를 제안합니다.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

본 논문은 정적 분석과 LLM 기반 추론을 결합한 모듈형 프레임워크인 Preguss 를 통해 대규모 프로그램의 잠재적 런타임 오류를 기반으로 인터프로시저 명세를 자동 생성 및 정제함으로써, 기존 LLM 기반 접근법보다 우수한 확장성을 보이며 수천 줄 규모의 프로그램에 대한 검증 노력을 80.6%~88.9% 감소시킨다고 제안합니다.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

이 논문은 GDPR 의 프라이버시 설계 (PbD) 를 위한 요구사항 공학 방법론을 조직의 목표에 부합하는지 평가하기 위한 목표 중심 접근법을 제안하고 있습니다.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

이 논문은 에이전트가 도구를 재사용 가능한 고수준 '스킬'로 추상화하고 재구성할 수 있는 능력을 평가하기 위한 새로운 벤치마크 'SkillCraft'를 제안하고, 이를 통해 에이전트의 토큰 사용량을 최대 80%까지 줄이면서 성공률을 높일 수 있음을 입증했습니다.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

이 논문은 비용과 데이터 프라이버시 문제를 해결하고 기능적 정확성을 보장하기 위해 테스트벤치 기반 검증이 통합된 다중 에이전트 프레임워크를 제안하여, 로컬 파인튜닝 LLM 인 'SiliconMind-V1'이 테스트 시간 확장 방식을 통해 Verilog RTL 설계를 생성, 테스트, 디버깅할 수 있도록 함으로써 기존 최첨단 모델보다 우수한 성능을 달성했다고 설명합니다.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

이 논문은 새로운 명령어 집합 구조 (ISA) 를 가진 차세대 AI 가속기용 저수준 커널을 자동으로 생성하고 최적화할 수 있는 에이전트형 LLM 의 능력을 평가하기 위해, 컴파일 및 시뮬레이션 피드백을 활용한 'KernelCraft'라는 첫 번째 벤치마크를 제안하고 이를 통해 커널 개발 비용 절감 가능성을 입증했습니다.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

이 논문은 애매한 명세와 형식적 정확성 보장의 부재로 인해 산업 규모 데이터 경로 설계에 적용하기 어려웠던 대규모 언어 모델을 활용하여, 소프트웨어 참조 모델을 형식 명세로 통합하고 계획·합성·형식 등가성 검증을 긴밀하게 결합한 'FormalRTL'이라는 다중 에이전트 프레임워크를 제안하여 확장 가능하고 신뢰할 수 있는 하드웨어 코드 생성을 실현함을 보여줍니다.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

이 논문은 안전-중요 시스템에 머신러닝을 안전하게 임베딩하는 C 코드 생성기 ACETONE 을 단일 코어에서 멀티코어 아키텍처를 지원하는 병렬 코드 생성으로 확장하기 위한 프로세서 할당 문제 정의 및 관련 기술 검토를 소개합니다.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

이 논문은 LLM 추론을 타입 안전성, 신뢰성, 격리된 컨텍스트, 자격 증명 보호, 컴파일 시 스키마 바인딩을 보장하는 언어 수준 원시 기능으로 통합하여 자율적 에이전트 소프트웨어를 위한 컴파일된 액터 기반 프로그래밍 언어 'Turn'을 제안합니다.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

이 논문은 프롬프트를 실행 가능한 테스트로 변환하고 이를 기반으로 반복적으로 개선하는 '테스트 주도 AI 에이전트 정의 (TDAD)' 방법론을 제안하여, 도구 사용형 LLM 에이전트의 행동 준수성을 측정 가능하게 하고 배포 전 사양 게임링 및 회귀 오류를 방지하는 체계를 제시합니다.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

이 논문은 다중 에이전트 LLM 시스템의 효율성과 거버넌스를 향상시키기 위해 모델 정체성, 점진적 페이로드, 통제된 세션, 구조화된 출처 추적, 신뢰 도메인 등 다섯 가지 메커니즘을 도입한 AI 네이티브 통신 프로토콜인 LDP(LLM Delegate Protocol) 를 제안하고, 이를 통해 지연 시간 감소와 토큰 효율성 증대 등의 효과를 입증했습니다.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

이 논문은 소프트웨어 공학의 질적 연구에서 생성형 AI(GenAI) 가 만능 해결책이 아니며, 연구 전략과 데이터 특성에 맞게 신중하게 적용해야 함을 강조하며 GenAI 지원 연구의 가능성과 한계를 검토합니다.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

이 논문은 LLM 기반 코딩 에이전트의 시스템 프롬프트 간섭 패턴을 탐지하기 위해 공식 평가 규칙과 다중 모델 스캐닝을 결합한 'Arbiter' 프레임워크를 제안하고, 주요 벤더들의 프롬프트에서 다양한 취약점을 발견하며 프롬프트 아키텍처와 실패 유형 간의 상관관계를 규명했습니다.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

이 논문은 AI 에이전트가 기존 시스템에 통합되거나 독립적으로 생성된 마이크로서비스를 기능적으로 구현할 수 있음을 보여주지만, 일관된 정확성 부재와 인간 감독의 필요성으로 인해 완전한 자율 생성은 아직 달성되지 않았음을 밝힙니다.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

이 논문은 LLM 의 컨텍스트 창을 메모리 계층 구조로 재해석하고, Pichay 라는 수요 기반 페이징 시스템을 통해 생산 환경에서 컨텍스트 소비를 최대 93% 까지 줄이는 동시에 상태 유지 문제를 해결하는 방법을 제시합니다.

Tony MasonWed, 11 Ma🤖 cs.AI