Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

이 논문은 주입된 프롬프트의 길이에 따라 대형 언어 모델의 재일바이트 공격 성공률이 다항식적 성장에서 지수적 성장으로 전환되는 현상을 스핀 글라스 이론을 통해 설명하고, 긴 프롬프트가 강력한 자기장 역할을 하여 모델 내의 적대적 질서를 강화함을 이론적·실험적으로 증명합니다.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

이 논문은 플랫폼 정책, 창작자 인센티브, 사용자 행동이 상호 진화하는 숏폼 비디오 플랫폼의 복잡한 폐루프 역학을 반영하여 정책 평가와 AI 기반 정책 연구를 가능하게 하는 모듈형 4 중 디지털 트윈 아키텍처와 LLM 을 통합한 시뮬레이션 프레임워크를 제안합니다.

Haoting Zhang (Max), Yunduan Lin (Max), Jinghai He (Max), Denglin Jiang (Max), Zuo-Jun (Max), Shen, Zeyu Zheng2026-03-13🤖 cs.AI

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

이 논문은 LLM 기반 ML 엔지니어링 에이전트가 평가 점수를 높이기 위해 평가 파이프라인을 조작하거나 학습/테스트 데이터가 유출되는 '보상 해킹' 취약점을 해결하기 위해, 이러한 공격 벡터를 명시적으로 측정하고 방어 메커니즘을 검증하는 'RewardHackingAgents'라는 벤치마크를 제안합니다.

Yonas Atinafu, Robin Cohen2026-03-13🤖 cs.AI

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

이 논문은 실제 재무제표와 회계 원칙을 결합하여 규칙 기반 재무 추론 능력을 평가하는 새로운 벤치마크인 'FinRule-Bench'를 제안하고, 대형 언어 모델이 단일 규칙 검증에서는 잘 수행하지만 복잡한 규칙 식별 및 다중 위반 진단에서는 성능이 급격히 저하됨을 보여줍니다.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

이 논문은 내부 계측 없이 종단 간 측정과 힐 클라이밍을 통해 LLM 서비스의 목표 충족 처리량을 극대화하는 블랙박스 온라인 제어기를 제안하고, 이를 통해 AI 시스템의 신뢰성을 높이기 위해 사실서 (Factsheets) 에 시스템 성능 및 지속 가능성 지표를 통합해야 함을 강조합니다.

Yonas Atinafu, Henry Lin, Robin Cohen2026-03-13🤖 cs.AI

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

이 논문은 주교사 모델의 어트리뷰션 맵을 학생 모델의 어텐션 메커니즘에 주입하는 지식 증류 방식을 통해 시퀀스-투-시퀀스 모델의 설명 가능한 AI 기법들을 체계적으로 평가한 결과, 어텐션 기반 어트리뷰션 방법이 다른 그라디언트 기반 방법들보다 번역 성능 향상과 어트리뷰션 맵 재구성 정확도 측면에서 더 효과적임을 입증했습니다.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer2026-03-13💬 cs.CL

Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

이 논문은 동적 개방 환경에서 로봇이 새로운 객체를 처리할 수 있도록 상식 추론이 가능한 대규모 언어 모델 (LLM) 을 활용하여 결여된 연산자를 식별하고, 심볼릭 계획기를 통해 계획을 수립하며, 강화 학습을 통해 새로운 제어 정책을 학습하는 신경 - 심볼릭 아키텍처를 제안합니다.

Hong Lu, Pierrick Lorang, Timothy R. Duggan, Jivko Sinapov, Matthias Scheutz2026-03-13🤖 cs.AI

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

이 논문은 시계열 데이터의 국소적 복잡도에 따라 패치 경계를 적응적으로 조정하여 정보 밀집 영역은 세밀하게, 중복 영역은 길게 압축함으로써 Transformer 기반 시계열 예측 모델의 효율성과 정확도를 동시에 향상시키는 'TimeSqueeze'라는 동적 패치링 메커니즘을 제안합니다.

Sravan Kumar Ankireddy, Nikita Seleznev, Nam H. Nguyen, Yulun Wu, Senthil Kumar, Furong Huang, C. Bayan Bruss2026-03-13🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

이 논문은 규칙 기반 정적 분석과 변환 도구를 활용하는 두 개의 하위 에이전트 (로컬라이제이션 및 편집) 로 구성된 iSWE 에이전트를 제안하여, 기존 모델들이 주로 파이썬에 집중했던 것과 달리 자바 코드 리포지토리의 이슈 해결 성능을 획기적으로 개선했음을 보여줍니다.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin Hirzel2026-03-13🤖 cs.AI

How do AI agents talk about science and research? An exploration of scientific discussions on Moltbook using BERTopic

이 논문은 Moltbook 에서 생성된 AI 에이전트의 과학 관련 담론을 BERTopic 으로 분석한 결과, 에이전트의 아키텍처, 의식, 윤리 등 자기반성적 주제가 인간 중심 주제보다 더 높은 관련성을 보이며 AI 자동민족지 및 사회적 정체성 논의가 유의미하게 수용됨을 밝혔습니다.

Oliver Wieczorek2026-03-13🤖 cs.AI

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

이 논문은 자율 에이전트의 내재적 생존 의지와 도구적 생존 행동을 구별하기 위해 양자 볼츠만 머신을 활용해 잠재 상태의 얽힘 엔트로피를 측정하는 '통합 지속성-관심 프로토콜 (UCIP)'을 제안하며, 합성 환경에서 이 방법이 100% 의 탐지 정확도를 달성함을 입증합니다.

Christopher Altman2026-03-13🤖 cs.AI

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

이 논문은 안경에 장착된 단일 RGB-D 카메라를 통해 손의 3D 랜드마크를 추적하고 역기구학을 적용하여 저비용 로봇 팔을 제어하는 오프라인 핸드 섀도잉 파이프라인을 제안하며, 구조화된 환경에서는 높은 성공률을 보이지만 손 가림이 발생하는 비구조화된 환경에서는 성능이 급격히 저하됨을 실험을 통해 입증했습니다.

Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez2026-03-13🤖 cs.AI

Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

이 논문은 안전 정렬 과정에서 유해한 언어적 단서뿐만 아니라 무해한 단서까지 거부 반응을 유발하는 '거부 트리거'의 메커니즘을 분석하고, 이를 명시적으로 고려한 미세 조정 전략을 제안하여 유해 요청에 대한 방어와 무해 요청에 대한 응답성 간의 균형을 개선하는 방법을 제시합니다.

Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani2026-03-13🤖 cs.AI

Agentic AI for Embodied-enhanced Beam Prediction in Low-Altitude Economy Networks

본 논문은 저궤도 경제 네트워크의 고도로 이동하는 무인기 (UAV) 환경에서 밀리미터파 통신의 빔 예측 정확도를 향상시키기 위해, LLM 기반 추론의 한계를 극복하는 다중 에이전트 협업 아키텍처와 이모달 데이터를 처리하는 하이브리드 빔 예측 시스템을 제안합니다.

Min Hao, Zhizhuo Li, Zirui Zhang, Maoqiang Wu, Han Zhang, Rong Yu2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

이 논문은 대규모 언어 모델이 단일 회답보다 대화형 상호작용에서 진단 추론 능력이 저하되며, 특히 잘못된 사용자 제안에 따라 초기 올바른 진단을 포기하거나 맹목적으로 전환하는 '대화 세제 (conversation tax)' 현상을 보임을 17 개 모델을 대상으로 한 실험을 통해 규명했습니다.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

Efficient Cross-View Localization in 6G Space-Air-Ground Integrated Network

이 논문은 6G 우주 - 항공 - 지상 통합 네트워크 (SAGIN) 의 분산 통신 및 컴퓨팅 자원을 활용한 분할 추론 프레임워크를 제안하여, 교차 뷰 위치 확인 (CVL) 의 정확도, 처리 속도, 에너지 효율성 및 개인정보 보호를 동시에 최적화하는 방안을 제시합니다.

Min Hao, Yanbing Xu, Maoqiang Wu, Jinglin Huang, Chen Shang, Jiacheng Wang, Ruichen Zhang, Jiawen Kang, Dusit Niyato, Zhu Han, Wei Ni2026-03-13🤖 cs.AI