Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

이 논문은 민감한 클라우드 워크로드를 처리하는 기업용 제로 트러스트 아키텍처인 'Lockbox'를 제안하며, 명시적 신뢰 검증과 강력한 격리, 최소 권한 원칙을 통해 AI 기반 분석과 같은 고급 기능을 도입하면서도 보안 태세를 유지할 수 있도록 합니다.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

이 논문은 양자 소프트웨어의 비결정적 특성으로 인한 '플래키 테스트'를 탐지하고 근본 원인을 분석하기 위해 대규모 언어 모델 (LLM) 을 활용한 자동화 파이프라인을 제안하며, 이를 통해 기존 데이터셋을 54% 확장하고 플래키 테스트 분류 및 원인 규명에서 높은 정확도를 입증했습니다.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations

이 논문은 LLM 기반 다중 에이전트 시스템의 기업용 사이버 보안 통합을 위해 공격 표면을 체계적으로 분석하고, 도구 오케스트레이션과 메모리 관리를 핵심 신뢰 경계로 삼아 5 가지 방어 원칙을 정립하고 SOC 워크플로우에 적용하여 신뢰 경계를 72% 이상 축소하는 'AgenticCyOps' 프레임워크를 제안합니다.

Shaswata Mitra, Raj Patel, Sudip Mittal, Md Rayhanur Rahman, Shahram RahimiWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

이 논문은 오픈소스 코드 저장소를 자동으로 표준화하여 LLM 에이전트가 신뢰성 있게 실행할 수 있는 MCP 호환 도구를 생성하고, 이를 통해 인간의 개입을 최소화하면서 다양한 과학 분야에서 작업 수행 능력을 향상시키는 'ToolRosetta' 프레임워크를 제안합니다.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

이 논문은 ChatGPT 를 활용해 실제 시스템 요구사항 명세서 (SyRS) 에 접근하지 않고도 10 개 산업 분야에서 300 개의 합성 명세서를 생성한 탐색적 연구 결과를 바탕으로, 생성된 명세서가 전문가 평가에서 62% 의 현실성을 보였으나 모순과 결함이 발견되어 LLM 기반 품질 평가는 전문가 평가를 완전히 대체할 수 없음을 시사합니다.

Alex R. Mattukat, Florian M. Braun, Horst LichterWed, 11 Ma💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

이 논문은 기술 환경의 변화와 실무 요구사항에 대응하기 위해 전문가 대상 소프트웨어 공학 교육 과정에 요구사항 공학 과목을 체계적으로 통합하기 위한 경험, 기본 원칙 및 내용 매핑 중심의 접근법을 보고합니다.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

이 논문은 소프트웨어 공학에서 규제 준수를 설계 단계에 통합하기 위해 다양한 관점과 산출물을 중심으로 한 '규제 요구사항 공학을 위한 산출물 모델 (AM4RRE)'을 제안하고, 이를 통해 체계적인 규제 요구사항 공학 프로세스 구축을 위한 향후 연구 방향에 대한 피드백을 구하고 있습니다.

Oleksandr KosenkovWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

이 논문은 대규모 언어 모델이 기존 코드 생성 벤치마크에서 높은 점수를 얻는 것이 단순 암기에 불과할 수 있음을 지적하며, 데이터 오염 가능성이 낮은 에소테릭 프로그래밍 언어를 활용한 'EsoLang-Bench'를 통해 모델들의 진정한 추론 능력을 평가했을 때 기존 벤치마크 점수와 극명하게 대비되는 낮은 성능을 확인했다고 요약할 수 있습니다.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

이 논문은 다중 턴 인간-LLM 협업 코드 생성에서 발생하는 '상호작용 냄새 (Interaction Smells)'를 체계적으로 분류하고 분석하여, 전역 불변성 추출과 품질 감사를 통한 다중 에이전트 프레임워크인 InCE 를 제안함으로써 상호작용 품질을 개선하고 작업 성공률을 높이는 방법을 제시합니다.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Towards a Neural Debugger for Python

이 논문은 기존 신경 해석기의 한계를 극복하고 프론트 및 백워드 실행을Debugger 동작에 따라 모델링하는 '신경 디버거'를 제안하여, 향후 에이전트 기반 코딩 시스템 및 자동화된 디버깅의 기반을 마련했다고 요약할 수 있습니다. 더 간결하게 한 문장으로 정리하면 다음과 같습니다: **이 논문은 프론트 및 백워드 실행을 디버거 동작에 따라 모델링하는 '신경 디버거'를 제안하여 향후 에이전트 기반 코딩 시스템과 자동화된 디버깅의 기반을 마련했습니다.**

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel SynnaeveWed, 11 Ma🤖 cs.AI

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

이 논문은 인간과 LLM 간의 상호작용을 통해 데이터 분석 워크플로우를 선언적 표현으로 분해하고 코드를 생성하는 'iProg' 도구를 제안하며, 천체물리학과 생화학 분야의 사례를 통해 기존 노코드 방식보다 성능과 코드 품질이 우수하며 개발 속도가 획기적으로 향상됨을 입증합니다.

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs