Optimal Transport Aggregation for Distributed Mixture-of-Experts
이 논문은 분산된 데이터에서 각기 독립적으로 학습된 혼합 전문가 (MoE) 모델을 단일 통신 단계로 효율적으로 집계하기 위해 최적 수송 (Optimal Transport) 기반의 새로운 프레임워크를 제안하고, 이를 통해 중앙 집중식 학습과 유사한 성능을 유지하면서 계산 및 통신 비용을 크게 절감하는 방법을 제시합니다.
134 편의 논문
이 논문은 분산된 데이터에서 각기 독립적으로 학습된 혼합 전문가 (MoE) 모델을 단일 통신 단계로 효율적으로 집계하기 위해 최적 수송 (Optimal Transport) 기반의 새로운 프레임워크를 제안하고, 이를 통해 중앙 집중식 학습과 유사한 성능을 유지하면서 계산 및 통신 비용을 크게 절감하는 방법을 제시합니다.
이 논문은 이질적인 네트워크 환경에서 통신 오버헤드를 20 배 이상 줄이면서도 높은 정확도를 유지하기 위해, 모달리티 인코더와 퓨전 모듈을 분리하고 샤플리 값을 기반으로 모달리티와 클라이언트를 선택하는 통신 효율적인 멀티모달 연방 학습 프레임워크인 'MFedMC'를 제안합니다.
이 논문은 제한된 수의 비잔틴 결함, 메시지 손실, 무한한 계산 지연, 그리고 인증된 메시지를 고려한 동적 네트워크 환경에서 신뢰할 수 있는 통신의 필요충분조건을 규명하고 이를 만족하는 네트워크 클래스를 제시합니다.
이 논문은 QED-C 벤치마크에 MPI 를 도입하여 멀티 GPU 양자 회로 시뮬레이션의 성능을 평가한 결과, GPU 아키텍처의 발전보다 노드 간 인터커넥트 기술의 진보가 해결 시간 단축에 훨씬 더 큰 영향 (16 배 이상) 을 미쳤음을 보여줍니다.
이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 AI 데이터 전송 시 버퍼 할당, 공유, 수명 주기 관리 및 흐름 제어 등 누락된 레이어를 명시적으로 다루는 'dmaplane'이라는 Linux 커널 모듈을 제안하고, NUMA 인식 할당, RDMA 기반 분산 추론 등 다양한 성능 측정과 엔드투엔드 시나리오를 통해 그 유효성을 입증합니다.
본 논문은 vLLM 과 AMD AITER 런타임을 활용한 AMD Instinct MI325X GPU 클러스터에서의 다양한 LLM 아키텍처 (MoE+MLA, Dense+GQA 등) 에 대한 생산 환경 추론 성능을 종합적으로 벤치마크하고, 아키텍처별 최적화 전략과 메모리 대역폭 병목 현상을 규명한 연구입니다.
이 논문은 Engram 의 희소 접근 패턴에 최적화된 CXL 메모리 풀을 SGLang 에 통합하여, 대규모 언어 모델의 추론 성능을 저해하지 않으면서도 확장 가능하고 비용 효율적인 메모리 솔루션을 제시합니다.
이 논문은 HMAC 인증과 비동기적 영지식 증명 (ZKP) 을 결합하여 ACE 런타임을 제안함으로써, 기존 블록체인이 직면한 서명 검증 비용 문제를 해결하고 1 초 미만의 암호학적 최종성을 달성하는 새로운 아키텍처를 제시합니다.
이 논문은 소비자용 GPU 에서 실행되는 다중 에이전트 AI 작업의 지연 시간 안정성과 처리량을 동시에 개선하기 위해, 프리필과 디코드를 격리하고 동적 예산 할당 및 적응형 CUDA 환경 할당을 통해 프리필과 디코드를 효율적으로 관리하는 'AgentServe' 시스템을 제안합니다.
본 논문은 LLM 어텐션 헤드 간 이질적인 희소성 특성을 활용하여 크로스-GPU 리소스 버블을 최소화하는 '희소성 인식 헤드 병렬 부하 균형 (S-HPLB)' 전략을 제안함으로써, 품질 저하 없이 평균 어텐션 계산 지연 시간을 2.88 배 단축함을 보여줍니다.
이 논문은 제약된 환경에서 다중 로봇 간 대규모 DNN 추론을 최적화하기 위해 오프라인 및 온라인 강화학습을 결합한 COHORT 프레임워크를 제안하며, 이를 통해 배터리 소모 감소, GPU 활용도 향상, 그리고 실시간 제약 조건 충족률 증대 효과를 입증했습니다.
이 논문은 체비셰프 필터링된 벡터의 조건수를 정밀하고 저비용으로 상한 추정하는 방법을 제시하여 ChASE 라이브러리에서 QR 분해 알고리즘을 자동으로 선택하는 메커니즘을 구현함으로써 정확도를 유지하면서 성능을 향상시켰음을 보여줍니다.
이 논문은 TLA+ 를 통한 형식적 검증과 YCSB 벤치마크를 통해 교차 영역 사이트 간 합의 지연을 32.90% 감소시키고 꼬리 지연을 49.24% 줄여 대규모 AI 연산의 성능을 향상시킨 새로운 합의 프로토콜 CD-Raft 를 제안합니다.
이 논문은 새로운 FP8 행렬 곱셈 단위 (MMA) 를 활용하여 Ozaki-II 방식을 기반으로 한 정밀도 높은 FP64 행렬 곱셈 연산을 효율적으로 구현하는 새로운 기법을 제안합니다.
이 논문은 멀티테넌트 LLM 서빙 시스템에서 자동 접두사 캐싱 (APC) 으로 인한 타이밍 사이드 채널 공격을 방지하면서도 기존 방어 기법보다 캐싱 재사용률을 70% 높이고 추론 지연을 30% 줄이는 'CacheSolidarity'라는 새로운 시스템을 제안합니다.
이 논문은 중소기업의 지역 제한 인프라 환경에서 탄소 배출, 비용, 지연 시간 제약을 동시에 고려하여 마이크로서비스를 동적으로 배치함으로써 탄소 배출을 37.4% 줄이고 운영 비용을 3.6% 절감하는 'Aceso' 시스템을 제안합니다.
이 논문은 호지 분해 (Hodge decomposition) 를 활용한 위상적 모델을 통해 서버리스 플랫폼의 복잡한 정보 흐름을 분석하고, 구조적 특성으로 나타나는 조화 흐름을 식별하여 시스템 재구축 없이도 효율성을 개선할 수 있는 실용적인 대응 전략을 제시합니다.
이 논문은 분산 학습 환경에서 합성곱 신경망 (CNN) 아키텍처가 모델 정확도에 미치는 영향과 계산 효율성에 영향을 주는 요인들을 분석하여, 리소스 집약적인 시나리오에서의 CNN 배포 최적화를 위한 통찰력을 제공합니다.
이 논문은 양자 프로세서 (QPU), 그래픽 처리 장치 (GPU), 중앙 처리 장치 (CPU) 를 통합하여 양자 및 고전 고성능 컴퓨팅 (HPC) 시스템 간의 단절을 해소하고 알고리즘 탐색을 가속화하기 위한 '양자 중심 슈퍼컴퓨팅 (QCSC)'의 참조 아키텍처와 3 단계 진화 로드맵을 제시합니다.