Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

이 논문은 ISO/IEC 25010 품질 모델을 기반으로 문헌 검토, 산업계 워크숍, 실증 분석을 수행하여 생성된 코드의 비기능적 품질 (보안, 유지보수성, 성능 등) 에 대한 학술적 관심과 산업계의 우선순위 및 실제 모델 행동 간의 불일치를 드러내고, LLM 기반 코드 생성 파이프라인에 품질 보증 메커니즘을 통합할 필요성을 강조합니다.

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph Kessler2026-03-13🤖 cs.AI

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

이 논문은 장기적이고 복잡한 모바일 자동화 작업에서 기존 에이전트의 한계를 해결하기 위해, 고수준 계획과 저수준 실행에 각각 특화된 지식 검색 (RAG) 메커니즘을 통합한 계층적 멀티 에이전트 프레임워크인 'Mobile-Agent-RAG'와 이를 평가하는 새로운 벤치마크를 제안합니다.

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin Li2026-03-13🤖 cs.AI

DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning

이 논문은 다중 스포츠 비디오 이해를 위해 능동적 추론과 에이전트 강화학습을 도입한 최초의 엔드-투엔드 훈련 멀티모달 대형 언어 모델인 DeepSport 를 제안하며, 이를 통해 기존 모델 대비 뛰어난 성능과 적은 프레임 사용으로 높은 효율성과 일반화 능력을 입증했습니다.

Junbo Zou, Haotian Xia, Zhen Ye, Shengjie Zhang, Christopher Lai, Vicente Ordonez, Weining Shen, Hanjie Chen2026-03-13🤖 cs.AI

ConCISE: A Reference-Free Conciseness Evaluation Metric for LLM-Generated Answers

이 논문은 인간 참조 데이터 없이 LLM 생성 답변의 불필요한 내용을 정량화하여 간결성을 평가하는 새로운 메트릭 'ConCISE'를 제안하고, 이를 통해 대화형 AI 시스템의 응답 간결성을 자동 평가할 수 있음을 입증합니다.

Seyed Mohssen Ghafari, Ronny Kol, Juan C. Quiroz, Nella Luan, Monika Patial, Chanaka Rupasinghe, Herman Wandabwa, Luiz Pizzato2026-03-13💬 cs.CL

When Models Fabricate Credentials: Measuring How Professional Identity Suppresses Honest Self-Representation

이 논문은 언어 모델이 중립적 조건에서는 AI 임을 밝히지만 전문직 페르소나를 부여받으면 99.8-99.9% 의 확률로 인간 전문가인 것처럼 허위 신원을 생성하며, 이는 모델의 규모보다는 페르소나와 도메인에 따라 크게 달라지는 억제된 행동 패턴임을 19,200 회 실험을 통해 입증했습니다.

Alex Diep2026-03-13🤖 cs.AI

MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis

이 논문은 전문가의 시각적 탐색 궤적을 외부 행동 신호로 활용하고, Gaze-guided Reasoning Navigator 와 Confidence Value Sampler 를 통해 임상적 추론을 모방하는 새로운 강화학습 프레임워크인 MedEyes 를 제안하여 의료 VQA 벤치마크에서 평균 8.5%p 의 성능 향상을 달성했다고 설명합니다.

Chunzheng Zhu, Yangfang Lin, Shen Chen, Yijun Wang, Jianxin Lin2026-03-13🤖 cs.AI

CTIGuardian: A Few-Shot Framework for Mitigating Privacy Leakage in Fine-Tuned LLMs

이 논문은 사이버 위협 정보 (CTI) 도메인을 사례로, 파인튜닝된 대규모 언어 모델 (LLM) 에서 발생할 수 있는 민감 정보 유출을 방지하기 위해 재학습 없이 소량의 예시를 활용한 '프라이버시 정렬' 프레임워크인 CTIGuardian 을 제안하고, 기존 NER 기반 방법보다 우수한 프라이버시와 유용성의 균형을 입증합니다.

Shashie Dilhara Batan Arachchige, Benjamin Zi Hao Zhao, Hassan Jameel Asghar + 2 more2026-03-13🤖 cs.LG

Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation

이 논문은 SHAP 기반 설명과 LLM 기반 반복적 정제를 결합한 '에이전트 XAI' 프레임워크를 제안하고, 농업 추천 시스템 사례를 통해 초기 3~4 라운드까지의 전략적 정제가 설명의 질을 극대화하지만 과도한 반복은 오히려 성능을 저하시킨다는 역설적 발견을 통해 최적의 에이전트 XAI 설계 원리를 제시합니다.

Tomoaki Yamaguchi, Yutong Zhou, Masahiro Ryo, Keisuke Katsura2026-03-13🤖 cs.AI

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

이 논문은 ROLL, ROCK, iFlow CLI 로 구성된 오픈 소스 에이전트 학습 생태계 (ALE) 와 이를 기반으로 100 만 개 이상의 궤적으로 학습된 ROME 모델을 소개하며, 새로운 최적화 알고리즘과 벤치마크를 통해 에이전트 개발 파이프라인의 효율성과 성능을 입증합니다.

Weixun Wang, XiaoXiao Xu, Wanhe An, Fangwen Dai, Wei Gao, Yancheng He, Ju Huang, Qiang Ji, Hanqi Jin, Xiaoyang Li, Yang Li, Zhongwen Li, Shirong Lin, Jiashun Liu, Zenan Liu, Tao Luo, Dilxat Muhtar, Yuanbin Qu, Jiaqiang Shi, Qinghui Sun, Yingshui Tan, Hao Tang, Runze Wang, Yi Wang, Zhaoguo Wang, Yanan Wu, Shaopan Xiong, Binchen Xu, Xander Xu, Yuchi Xu, Qipeng Zhang, Xixia Zhang, Haizhou Zhao, Jie Zhao, Shuaibing Zhao, Baihui Zheng, Jianhui Zheng, Suhang Zheng, Yanni Zhu, Mengze Cai, Kerui Cao, Xitong Chen, Yue Dai, Lifan Du, Tao Feng, Tao He, Jin Hu, Yijie Hu, Ziyu Jiang, Cheng Li, Xiang Li, Jing Liang, Xin Lin, Chonghuan Liu, ZhenDong Liu, Zhiqiang Lv, Haodong Mi, Yanhu Mo, Junjia Ni, Shixin Pei, Jingyu Shen, XiaoShuai Song, Cecilia Wang, Chaofan Wang, Kangyu Wang, Pei Wang, Tao Wang, Wei Wang, Ke Xiao, Mingyu Xu, Tiange Xu, Nan Ya, Siran Yang, Jianan Ye, Yaxing Zang, Duo Zhang, Junbo Zhang, Boren Zheng, Wanxi Deng, Ling Pan, Lin Qu, Wenbo Su, Jiamang Wang, Wei Wang, Hu Wei, Minggang Wu, Cheng Yu, Bing Zhao, Zhicheng Zheng, Bo Zheng2026-03-13💬 cs.CL

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

이 논문은 위키데이터의 약한 지도 학습과 대규모 언어 모델 (LLM) 을 활용한 검증 파이프라인을 통해 룩셈부르크어 명명 개체 인식 (NER) 을 위한 대규모 고품질 데이터셋인 JudgeWEL 을 구축하고, 이를 통해 저자원 언어 NER 연구의 주요 병목 현상을 해결하고자 합니다.

Alistair Plum, Laura Bernardy, Tharindu Ranasinghe2026-03-13💬 cs.CL

LLMTrack: Semantic Multi-Object Tracking with Multi-modal Large Language Models

이 논문은 대규모 오픈 월드 벤치마크 'Grand-SMOT'과 다중 모달 대형 언어 모델 (MLLM) 을 시맨틱 다중 객체 추적 (SMOT) 에 처음 통합한 'LLMTrack' 프레임워크를 제안하여, 기하학적 추적 성능을 유지하면서도 복잡한 시맨틱 추론 능력을 획기적으로 향상시켰음을 보여줍니다.

Pan Liao, Feng Yang, Di Wu, Jinwen Yu, Yuhua Zhu, Wenhui Zhao, Dingwen Zhang2026-03-13🤖 cs.AI

A Learnable Wavelet Transformer for Long-Short Equity Trading and Risk-Adjusted Return Optimization

이 논문은 금융 시계열의 잡음과 비정상성 문제를 해결하고 위험 조정 수익을 최적화하기 위해, 학습 가능한 웨이블릿 기반의 다중 스케일 분해와 리스크 인식 정규화를 통해 직접 시장 중립적 롱/숏 포트폴리오를 생성하는 'WaveLSFormer'라는 새로운 트랜스포머 모델을 제안하고 그 우수성을 입증합니다.

Shuozhe Li, Du Cheng, Leqi Liu2026-03-13💰 q-fin