Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

이 논문은 LeRobot 프레임워크를 기반으로 데이터 파이프라인 재구조화, 모델 최적화 (FlashAttention, FP8 등), 그리고 고성능 인프라 구축을 통해 그라 00T-N1.5 모델의 학습 속도를 40 배 가속화한 천 개 GPU 규모의 대규모 분산 학습 플랫폼과 종단 간 평가 시스템을 제시합니다.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

이 논문은 중앙 집중식 제약을 극복하고 도메인 간 자율성을 보장하는 탈중앙화 오케스트레이션 아키텍처를 제안하며, 이를 통해 비잔틴 위협 하에서도 안전한 다중 도메인 분산 연합 학습 (DFL) 을 가능하게 하는 FU-HST 기법을 제시하고 있습니다.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

이 논문은 확장성, 상황 인식, 그리고 스트레스에 따른 적응적 의사결정을 위해 그래프 신경망과 다중 에이전트 강화 학습을 결합한 AGMARL-DKS 를 제안하여 기존 쿠버네티스 스케줄러의 한계를 극복하고 워크로드 배치 및 핵심 업무 처리 시 내결함성, 자원 활용도, 비용 효율성을 크게 향상시켰음을 보여줍니다.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

이 논문은 다양한 입력과 출력 모달리티를 처리하는 범용 Any-to-Any 멀티모달 모델의 효율적인 분산 서빙을 위해 컴포넌트 분리 및 독립적 확장이 가능한 'Cornserve' 시스템을 제안하고, 이를 통해 처리량과 지연 시간 성능을 크게 향상시켰음을 보여줍니다.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

이 논문은 완전 동기화 (FSYNC) 환경에서는 해결 불가능한 범용 패턴 형성 문제가 순차적 스케줄러 하에서는 추가 가정 없이 해결 가능하며, 특히 무작위 로봇의 경우 약한 중복 감지 능력만으로도 집합 (Gathering) 문제를 해결할 수 있음을 증명하여 두 스케줄링 모델의 계산 능력이 서로 직교함을 보여줍니다.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

이 논문은 AWS Lambda 와 같은 서버리스 환경에서 HPC 와 유사한 고성능 통신을 가능하게 하는 'Cylon'이라는 분산 데이터 프레임 솔루션을 제안하며, NAT 트래버설 TCP 홀 펀칭 기술을 통해 64 노드 규모에서 서버풀 EC2 환경과 6.5% 이내의 확장 효율을 달성함을 보여줍니다.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

이 논문은 방향성 사이클에서의 국소 최적화 문제들에 대해 결정론적 및 확률적 LOCAL 모델에서의 계산 복잡성을 완전히 분류하고, 주어진 문제에 대한 복잡도 클래스를 자동으로 판별하며 점근적으로 최적의 분산 알고리즘을 효율적으로 생성하는 메타 알고리즘을 제시합니다.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

이 논문은 HPE Slingshot 11 네트워크 카드의 기능을 활용하여 CPU 를 통신 경로에서 제거하고 프로그래머의 동기화 부담을 줄인 새로운 MPI 기반 GPU 통신 API 를 설계·구현하였으며, Cabana/Kokkos 프레임워크와 Frontier 슈퍼컴퓨터에서의 평가를 통해 중간 크기 메시지 대기 시간을 최대 50% 단축하고 대규모 할로 교환 벤치마크에서 28% 의 속도 향상을 입증했습니다.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

이 논문은 비동일 분포 (non-IID) 데이터와 적대적 공격 환경에서도 높은 정확도와 통신 효율성을 보장하기 위해 서버 측에서 지수 이동 평균 (EMA) 과 앙상블 지식 증류 (ensemble knowledge distillation) 를 결합하여 클라이언트 모델의 이질성을 지원하고 Byzantine 공격에 강인한 새로운 연방 학습 프레임워크인 FedEMA-Distill 을 제안합니다.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

이 논문은 장기 실행 LLM 에이전트의 지연 시간 불규칙성을 해결하기 위해, 단순한 시간 기반 유지보수가 아닌 가치 기반 수명 주기 관리와 검색 집합 크기 제한을 통해 AMV-L 프레임워크를 제안하고, 이를 통해 처리량을 3.1 배 향상시키고 극단적 지연을 획기적으로 줄인 결과를 입증합니다.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

이 논문은 HPX 런타임 시스템의 비동기 실행 및 잠금 숨김 기법을 활용하여 분산 그래프 알고리즘의 지연 시간 병목 현상을 극복하고, 기존 프레임워크보다 우수한 성능을 보이는 BFS, 페이지랭크, 삼각형 카운팅 알고리즘의 분산 구현을 제안합니다.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs