cs.DC 편의 논문 | Gist.Science

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

이 논문은 LeRobot 프레임워크를 기반으로 데이터 파이프라인 재구조화, 모델 최적화 (FlashAttention, FP8 등), 그리고 고성능 인프라 구축을 통해 그라 00T-N1.5 모델의 학습 속도를 40 배 가속화한 천 개 GPU 규모의 대규모 분산 학습 플랫폼과 종단 간 평가 시스템을 제시합니다.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI

Subtime: Reversible Information Exchange and the Emergence of Classical Time

이 논문은 양자 얽힘 시스템 내의 가역적 정보 교환 개념인 '서브타임 (subtime)'을 정식화하고, 디코히어런스를 통해 고전적 시간의 화살이 어떻게 점근적 한계로 등장하는지 설명하며, 이를 통해 가역적 인과 원리와 다양한 물리 이론들을 통합하는 새로운 프레임워크를 제시합니다.

Paul L. BorrillFri, 13 Ma⚛️ quant-ph

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

이 논문은 중앙 집중식 제약을 극복하고 도메인 간 자율성을 보장하는 탈중앙화 오케스트레이션 아키텍처를 제안하며, 이를 통해 비잔틴 위협 하에서도 안전한 다중 도메인 분산 연합 학습 (DFL) 을 가능하게 하는 FU-HST 기법을 제시하고 있습니다.

Diego Cajaraville-Aboy, Ana Fernández-Vilas, Rebeca P. Díaz-Redondo, Manuel Fernández-Veiga, Pablo Picallo-LópezFri, 13 Ma🤖 cs.LG

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

이 논문은 확장성, 상황 인식, 그리고 스트레스에 따른 적응적 의사결정을 위해 그래프 신경망과 다중 에이전트 강화 학습을 결합한 AGMARL-DKS 를 제안하여 기존 쿠버네티스 스케줄러의 한계를 극복하고 워크로드 배치 및 핵심 업무 처리 시 내결함성, 자원 활용도, 비용 효율성을 크게 향상시켰음을 보여줍니다.

Hamed HamzehFri, 13 Ma🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

이 논문은 다양한 입력과 출력 모달리티를 처리하는 범용 Any-to-Any 멀티모달 모델의 효율적인 분산 서빙을 위해 컴포넌트 분리 및 독립적 확장이 가능한 'Cornserve' 시스템을 제안하고, 이를 통해 처리량과 지연 시간 성능을 크게 향상시켰음을 보여줍니다.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf ChowdhuryFri, 13 Ma🤖 cs.LG

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

이 논문은 분산 데이터 파이프라인의 자동화된 계획 및 스케줄링을 위해 WORKSWORLD 라는 새로운 도메인을 제안하고, 이를 통해 데이터 소스, 구성 요소, 목적지를 정의하는 것만으로 분산 워크플로우 그래프를 구축하고 자원에 스케줄링하는 통합 해결책을 제시합니다.

Taylor Paul, William RegliFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

이 논문은 많은 코어 NUMA 노드 환경에서 동시성 결정적 스킵리스트, 락 프리 큐, 멀티 리더/라이터 해시 테이블의 설계와 성능을 분석하고, 메모리 관리 전략과 계층적 데이터 구조 활용을 통해 메모리 지연을 줄이는 방법을 제안합니다.

Aparna Sasidharan2026-03-06💻 cs

Parallel Split Learning with Global Sampling

이 논문은 비독립적 분포 (non-IID) 데이터 환경에서 병렬 분할 학습 (PSL) 의 배치 크기 문제와 편향을 해결하고 중앙 집중식 학습과 유사한 정확도와 효율성을 달성하기 위해 전역 샘플링을 기반으로 한 새로운 서버 주도 방식인 GPSL 을 제안합니다.

Mohammad Kohankhaki, Ahmad Ayad, Mahdi Barhoush + 1 more2026-03-06💻 cs

Universal Pattern Formation by Oblivious Robots Under Sequential Schedulers

이 논문은 완전 동기화 (FSYNC) 환경에서는 해결 불가능한 범용 패턴 형성 문제가 순차적 스케줄러 하에서는 추가 가정 없이 해결 가능하며, 특히 무작위 로봇의 경우 약한 중복 감지 능력만으로도 집합 (Gathering) 문제를 해결할 수 있음을 증명하여 두 스케줄링 모델의 계산 능력이 서로 직교함을 보여줍니다.

Paola Flocchini, Alfredo Navarra, Debasish Pattanayak + 2 more2026-03-06💻 cs

Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

이 논문은 AWS Lambda 와 같은 서버리스 환경에서 HPC 와 유사한 고성능 통신을 가능하게 하는 'Cylon'이라는 분산 데이터 프레임 솔루션을 제안하며, NAT 트래버설 TCP 홀 펀칭 기술을 통해 64 노드 규모에서 서버풀 EC2 환경과 6.5% 이내의 확장 효율을 달성함을 보여줍니다.

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski + 3 more2026-03-06💻 cs

Modality Inflation: Energy Characterization and Optimization Opportunities for MLLM Inference

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 추론에서 발생하는 '모달리티 인플레이션' 현상을 분석하여 에너지 소비 패턴을 규명하고, 단계별 동적 전압 및 주파수 스케일링 (DVFS) 을 통해 에너지 효율을 크게 개선할 수 있음을 제시합니다.

Mona Moghadampanah, Adib Rezaei Shahmirzadi, Farhana Amin + 1 more2026-03-06💻 cs

Classification of Local Optimization Problems in Directed Cycles

이 논문은 방향성 사이클에서의 국소 최적화 문제들에 대해 결정론적 및 확률적 LOCAL 모델에서의 계산 복잡성을 완전히 분류하고, 주어진 문제에 대한 복잡도 클래스를 자동으로 판별하며 점근적으로 최적의 분산 알고리즘을 효율적으로 생성하는 메타 알고리즘을 제시합니다.

Thomas Boudier, Fabian Kuhn, Augusto Modanese + 2 more2026-03-06💻 cs

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

이 논문은 HPE Slingshot 11 네트워크 카드의 기능을 활용하여 CPU 를 통신 경로에서 제거하고 프로그래머의 동기화 부담을 줄인 새로운 MPI 기반 GPU 통신 API 를 설계·구현하였으며, Cabana/Kokkos 프레임워크와 Frontier 슈퍼컴퓨터에서의 평가를 통해 중간 크기 메시지 대기 시간을 최대 50% 단축하고 대규모 할로 교환 벤치마크에서 28% 의 속도 향상을 입증했습니다.

Patrick G. Bridges, Derek Schafer, Jack Lange + 7 more2026-03-06💻 cs

2-Coloring Cycles in One Round

이 논문은 대형 언어 모델이 증명을 주도하고 Lean 4 로 형식화한 바와 같이, 1 라운드 랜덤화 분산 알고리즘을 사용하여 사이클을 2-색칠할 때 단색 간선의 기대 비율이 0.24118 미만임을 보이고, 동시에 이 비율이 0.23879 이상일 수 없음을 증명하여 기존 상한 및 하한을 개선했습니다.

Maxime Flin, Alesya Raevskaya, Ronja Stimpert + 2 more2026-03-06💻 cs

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

이 논문은 비동일 분포 (non-IID) 데이터와 적대적 공격 환경에서도 높은 정확도와 통신 효율성을 보장하기 위해 서버 측에서 지수 이동 평균 (EMA) 과 앙상블 지식 증류 (ensemble knowledge distillation) 를 결합하여 클라이언트 모델의 이질성을 지원하고 Byzantine 공격에 강인한 새로운 연방 학습 프레임워크인 FedEMA-Distill 을 제안합니다.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

이 논문은 장기 실행 LLM 에이전트의 지연 시간 불규칙성을 해결하기 위해, 단순한 시간 기반 유지보수가 아닌 가치 기반 수명 주기 관리와 검색 집합 크기 제한을 통해 AMV-L 프레임워크를 제안하고, 이를 통해 처리량을 3.1 배 향상시키고 극단적 지연을 획기적으로 줄인 결과를 입증합니다.

Emmanuel Bamidele2026-03-06💻 cs

Overcoming Latency-bound Limitations of Distributed Graph Algorithms using the HPX Runtime System

이 논문은 HPX 런타임 시스템의 비동기 실행 및 잠금 숨김 기법을 활용하여 분산 그래프 알고리즘의 지연 시간 병목 현상을 극복하고, 기존 프레임워크보다 우수한 성능을 보이는 BFS, 페이지랭크, 삼각형 카운팅 알고리즘의 분산 구현을 제안합니다.

Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine + 1 more2026-03-06💻 cs

DuaLip-GPU Technical Report

이 논문은 대규모 선형 계획법 문제를 해결하기 위해 기존 CPU 기반 DuaLip 솔버의 한계를 극복하고, 커스텀 GPU 실행 기법과 재설계된 아키텍처를 통해 최소 10 배의 속도 향상을 달성한 새로운 솔버를 제안합니다.

Gregory Dexter, Aida Rahmattalabi, Sanjana Garg + 6 more2026-03-06💻 cs

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

이 논문은 LLM 추론의 Prefill-Decode 분리 아키텍처에서 SLO, 요청 특성 및 처리량 제약을 고려하여 최적의 하드웨어 자원을 할당하기 위해 이론적 모델링과 실험적 벤치마킹을 결합한 하이브리드 접근법을 제안합니다.

Luchang Li, Dongfang Li, Bozhao Gong + 1 more2026-03-06🔢 math

The Semantic Arrow of Time, Part III: RDMA and the Completion Fallacy

이 논문은 RDMA 기술이 데이터 배치만 보장하고 애플리케이션의 의미적 통합을 보장하지 않는 '완료 오류'를 범하고 있음을 지적하며, 배달과 약속 사이의 간극을 해소하기 위해 필수적인 반사 단계를 갖춘 프로토콜 아키텍처가 필요함을 주장합니다.

Paul Borrill2026-03-06💻 cs

← 이전 다음 →