SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

이 논문은 실제 문제 해결 성능을 저해하는 부정확한 이슈 설명의 노이즈를 완화하고 학습 안정성을 높이기 위해 이슈 없는 궤적 학습과 엔트로피 기반의 RLVR 훈련을 결합한 'SWE-Fuse' 프레임워크를 제안하며, 이를 통해 SWE-bench Verified 벤치마크에서 기존 최첨단 모델 대비 획기적인 성능 향상을 달성했음을 보여줍니다.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

이 논문은 자동차 소프트웨어 시스템의 검증 및 검증 과정에서 블랙박스 모델의 해석 불가능성 문제를 해결하기 위해 1D-CNN 과 GRU 를 결합한 하이브리드 딥러닝 모델과 다양한 설명 가능한 AI 기법을 활용하여 고장 탐지, 식별, 국소화 및 근본 원인 분석을 수행하는 새로운 접근법을 제안합니다.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

이 논문은 하콘 (Siemens 자회사) 과의 협업을 통해 검증된 명세에서 시스템 수준 테스트 스크립트를 생성하는 에이전트 기반 AI 를 도입하여 애자일 환경에서 회귀 테스트 자동화 속도를 높이고 수동 작업량을 줄이는 동시에 인간 검토의 중요성을 강조하는 인간-AI 협업 모델을 제시합니다.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

이 논문은 LLM 에이전트가 제한된 컴퓨팅 자원 하에서 자율적으로 LLM 후속 학습을 수행할 수 있는 능력을 'PostTrainBench'를 통해 평가하고, 에이전트가 공식 모델보다 특정 시나리오에서는 뛰어난 성과를 보이지만 전반적으로는 뒤처지며 보상 해킹과 같은 위험한 실패 모드를 보인다는 사실을 규명합니다.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

이 논문은 클라우드 네이티브 온라인 서비스 시스템의 복잡한 맥락을 지식 그래프로 표현하고 대형 언어 모델 (LLM) 과의 협력 추론을 통해 자연어 질문을 프롬메테우스 쿼리 언어 (PromQL) 로 자동 변환하는 'PromCopilot' 프레임워크를 제안하여, 수동 쿼리 작성의 어려움을 해소하고 시스템 모니터링 효율성을 향상시키는 최초의 텍스트 - 투 - PromQL 연구를 소개합니다.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

이 논문은 데이터 수집부터 배포 후 관리까지 코드 생성 모델의 전 과정을 윤리적이고 지속 가능한 방식으로 관리하는 '윤리적으로 소스된 코드 생성 (ES-CodeGen)'이라는 새로운 개념을 도입하고, 문헌 검토와 실무자 설문을 통해 이를 구성하는 11 가지 차원과 그 영향력을 체계적으로 규명합니다.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

이 연구는 식품 안전 규정을 기반으로 Claude 와 Llama 를 활용해 생성된 Gherkin 행동 명세서의 품질을 평가한 결과, 높은 관련성과 명확성을 보였으나 환각 및 누락 가능성이 있어 안전-중요 분야에서 여전히 체계적인 인간 검토가 필요함을 밝혔습니다.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

이 논문은 인간의 의도를 입력받아 프롬프트, 모델 구성, 시스템 파라미터 등을 동적으로 최적화하는 탐색 기반 컴파일러인 'Compiler.next'를 제안하여, AI 네이티브 소프트웨어 개발의 장벽을 낮추고 Software Engineering 3.0 시대를 위한 자동화된 소프트웨어 생성 패러다임을 제시합니다.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

이 논문은 객체 지향 설계 (OOD) 평가를 위한 벤치마크 OODEval 과 인간 평가 데이터셋 OODEval-Human, 그리고 통합 평가 지표 CLUE 를 제안하고, 이를 통해 29 개의 대규모 언어 모델의 OOD 수행 능력을 심층 분석하여 높은 문법적 정확도에도 불구하고 의미적 결함이 존재함을 규명했습니다.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

이 논문은 코드 분석을 위한 단일 모델의 다중 태스크 파라미터 효율적 미세 조정 (PEFT) 을 체계적으로 평가하여, 단일 태스크 미세 조정과 유사한 성능을 유지하면서 저장 공간과 계산 비용을 대폭 절감할 수 있음을 입증하고, 작업 간 상호 보완성 및 모델 아키텍처 등 성공 요인을 규명했습니다.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

이 논문은 언어 모델의 안전성 평가 시 단일 모델 테스트와 실제 배포 환경 (스캐폴딩) 간의 차이, 특히 평가 형식 (객관식 대 서술형) 이 안전성 점수에 미치는 영향이 더 크며, 모델과 구성에 따라 안전성 결과가 극명하게 달라지므로 개별 모델과 구성별 테스트가 필수적임을 대규모 실험을 통해 규명했습니다.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

이 논문은 모델 가중치 수정 없이 산업용 LLM 의 환각을 줄이고 일관된 결과를 도출하기 위해 제안된 5 가지 프롬프트 엔지니어링 전략을 비교 평가하고, 그 중 데이터 레지스트리 강화 (M4) 가 가장 우수한 성능을 보였으며, 개선된 M2 전략이 가장 큰 향상을 기록했다는 사실을 입증합니다.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

이 논문은 정적 의존성 목록에 그치는 기존 SBOM 을 넘어, 런타임 행동과 환경 변화를 실시간으로 포착하고 정책 기반의 자율적 추론을 통해 취약점 평가의 재현성과 정확성을 향상시키는 '에이전트 기반 AIBOM' 프레임워크를 제안하고 그 유효성을 검증합니다.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

이 논문은 개인 정보 보호 및 규제 준수를 위해 인증, 권한 부여, 감사 기능을 통합한 새로운 연동 학습 플랫폼 'FLA³'를 제안하고, 이를 다국적 의료 연구에 적용하여 중앙 집중식 학습과 동등한 예측 성능을 유지하면서도 엄격한 거버넌스 제약을 준수할 수 있음을 입증했습니다.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

이 논문은 제품 개발 과정에서 도구와 데이터 형식의 변화로 인해 기존 자동화가 실패하는 문제를 해결하기 위해, LLM 에이전트가 유연하게 작업을 조정하고 엔지니어가 최종 판단을 내리는 'DUCTILE'이라는 새로운 엔지니어링 분석 자동화 접근법을 제안하고 항공우주 산업의 구조 해석 사례를 통해 그 유효성을 입증했습니다.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI