Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

이 논문은 LeRobot 프레임워크를 기반으로 데이터 파이프라인 재구조화, 모델 최적화 (FlashAttention, FP8 등), 그리고 고성능 인프라 구축을 통해 그라 00T-N1.5 모델의 학습 속도를 40 배 가속화한 천 개 GPU 규모의 대규모 분산 학습 플랫폼과 종단 간 평가 시스템을 제시합니다.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen Sun2026-03-13🤖 cs.AI

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

이 논문은 LLM 다중 에이전트 시스템의 토폴로지 기밀성을 침해하는 새로운 공격 프레임워크인 'WebWeaver'를 제안하며, 단일 에이전트의 컨텍스트만 활용하여 기존 방법보다 훨씬 은밀하고 정확하게 전체 토폴로지를 추론하는 방식을 제시합니다.

Zixun Xiong, Gaoyi Wu, Lingfeng Yao, Miao Pan, Xiaojiang Du, Hao Wang2026-03-13🤖 cs.AI

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

이 논문은 비디오 비전 트랜스포머 모델에서 '성공 대 실패'라는 결과 신호가 어텐션 헤드가 증거를 수집하고 MLP 블록이 개념을 구성하는 분산된 인과 회로를 통해 점진적으로 증폭되는 메커니즘을 규명함으로써, 단순 분류 작업만 수행하는 모델 내부에도 신뢰할 수 있는 AI 를 구축하기 위해 파악해야 할 숨겨진 지식이 존재함을 보여줍니다.

Sai V R Chereddy2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

이 논문은 지식 증류 시 학생 모델이 이미 숙달했거나 도달 불가능한 문제에서 발생하는 계산 낭비를 이론적으로 규명하고, 학생 모델의 역량 한계 부근의 문제에 집중하도록 설계된 'PACED' 프레임워크를 제안하여 다양한 증류 시나리오에서 성능을 획기적으로 향상시킨다는 내용입니다.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

이 논문은 2024 년 8 월부터 2026 년 2 월까지 출시된 7 가지 최첨단 AI 모델을 기업 네트워크 및 산업 제어 시스템 사이버 공격 시나리오에서 평가한 결과, 추론 시 계산량 증가와 모델 세대 발전에 따라 다단계 공격 수행 능력이 비약적으로 향상되었음을 보여줍니다.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

이 논문은 지식 그래프 기반의 다단계 질문 응답 (QA) 에서 삼중항 (triple) 변환 시 발생하는 맥락 손실 문제를 해결하기 위해, 엔터티 중심 요약과 통합 인덱싱 기법 (MDER) 과 질의 분해 및 추론 메커니즘 (DR) 을 결합한 새로운 RAG 프레임워크를 제안하고, 이를 통해 기존 베이스라인 대비 최대 66% 의 성능 향상을 입증했습니다.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero Fraternali2026-03-13💬 cs.CL

Markovian Generation Chains in Large Language Models

이 논문은 대규모 언어 모델이 이전 출력을 기반으로 반복적으로 텍스트를 생성하는 '마르코프 생성 사슬' 과정을 분석하여, 온도 파라미터와 초기 입력에 따라 문장 다양성이 증가하거나 감소할 수 있음을 규명하고 다중 에이전트 시스템에 대한 시사점을 제시합니다.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Mind the Sim2Real Gap in User Simulation for Agentic Tasks

이 논문은 LLM 기반 사용자 시뮬레이터가 실제 인간 행동보다 지나치게 협력적이고 일관된 반응을 보여 에이전트 성능을 과대평가하게 만든다는 'Sim2Real' 격차를 실증적으로 규명하고, 이를 해결하기 위해 인간 검증의 중요성을 강조합니다.

Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap2026-03-13🤖 cs.AI

Artificial Intelligence for Sentiment Analysis of Persian Poetry

본 논문은 BERT 와 GPT 기반의 대규모 언어 모델을 활용하여 루미와 파르빈 에테사미의 페르시아 시를 감성 분석한 결과, GPT-4o 가 페르시아 시 분석에 효과적이며 루미의 시가 파르빈 에테사미의 시보다 더 긍정적인 감정을 표현하고 다양한 운율로 감정을 전달함을 확인했다고 요약할 수 있습니다.

Arash Zargar, Abolfazl Moshiri, Mitra Shafaei, Shabnam Rahimi-Golkhandan, Mohamad Tavakoli-Targhi, Farzad Khalvati2026-03-13💬 cs.CL

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

이 논문은 기존 LLM 망각 (Unlearning) 평가의 한계를 지적하고, 복잡한 다단계 추론 질문을 통해 망각의 취약점을 드러내는 동적 평가 프레임워크를 제안하며, 이를 통해 단일 단계 질문보다 다단계 질문에서 망각이 더 쉽게 실패하는 메커니즘을 규명했습니다.

Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang2026-03-13🤖 cs.AI

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

이 논문은 AI 매개 대화를 통해 장애 차별 (ableism) 인식 개선을 탐구한 연구로, 대화 기반 개입이 텍스트 독독보다 효과적이었으며 특히 포용적 방향의 AI 안내가 편향적 안내보다 수용성과 균형 있는 인식 향상에 더 유리하다는 결과를 제시합니다.

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. Bigham2026-03-13🤖 cs.AI

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

이 논문은 디지털 주권, 지속 가능성, 규정 준수, 윤리라는 네 가지 핵심 가치를 통합적으로 관리하고 설명 가능한 의사결정을 보장하기 위해 고안된 새로운 다중 에이전트 오케스트레이션 프레임워크인 COMPASS 를 제안합니다.

Jean-Sébastien, Dessureault, Alain-Thierry, Iliho Manzi, Soukaina, Alaoui Ismaili, Khadim, Lo, Mireille, Lalancette, Éric, Bélanger2026-03-13🤖 cs.AI

AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

이 논문은 TAM(기술수용모델) 을 활용하여 GPT-3.5, GPT-4, LLaMA-2, LLaMA-3 등 네 가지 대규모 언어 모델의 심리적 추론 능력을 평가한 결과, 모든 모델이 심리측정적 타당성 기준을 충족했으며 특히 GPT-4 와 LLaMA-3 같은 고성능 모델이 더 우수한 타당성을 보였음을 밝혀 AI 심리측정학이 LLM 평가에 유효한 방법임을 입증했습니다.

Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li2026-03-13🤖 cs.AI