Optimal Transport Aggregation for Distributed Mixture-of-Experts

이 논문은 분산된 데이터에서 각기 독립적으로 학습된 혼합 전문가 (MoE) 모델을 단일 통신 단계로 효율적으로 집계하기 위해 최적 수송 (Optimal Transport) 기반의 새로운 프레임워크를 제안하고, 이를 통해 중앙 집중식 학습과 유사한 성능을 유지하면서 계산 및 통신 비용을 크게 절감하는 방법을 제시합니다.

Faïcel Chamroukhi, Nhat Thien PhamThu, 12 Ma📊 stat

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection

이 논문은 이질적인 네트워크 환경에서 통신 오버헤드를 20 배 이상 줄이면서도 높은 정확도를 유지하기 위해, 모달리티 인코더와 퓨전 모듈을 분리하고 샤플리 값을 기반으로 모달리티와 클라이언트를 선택하는 통신 효율적인 멀티모달 연방 학습 프레임워크인 'MFedMC'를 제안합니다.

Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. BrintonThu, 12 Ma🤖 cs.LG

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

이 논문은 Engram 의 희소 접근 패턴에 최적화된 CXL 메모리 풀을 SGLang 에 통합하여, 대규모 언어 모델의 추론 성능을 저해하지 않으면서도 확장 가능하고 비용 효율적인 메모리 솔루션을 제시합니다.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

이 논문은 소비자용 GPU 에서 실행되는 다중 에이전트 AI 작업의 지연 시간 안정성과 처리량을 동시에 개선하기 위해, 프리필과 디코드를 격리하고 동적 예산 할당 및 적응형 CUDA 환경 할당을 통해 프리필과 디코드를 효율적으로 관리하는 'AgentServe' 시스템을 제안합니다.

Yuning Zhang, Yan Yan, Nan Yang, Dong YuanThu, 12 Ma💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

이 논문은 제약된 환경에서 다중 로봇 간 대규모 DNN 추론을 최적화하기 위해 오프라인 및 온라인 강화학습을 결합한 COHORT 프레임워크를 제안하며, 이를 통해 배터리 소모 감소, GPU 활용도 향상, 그리고 실시간 제약 조건 충족률 증대 효과를 입증했습니다.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya RoyThu, 12 Ma💻 cs

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

이 논문은 멀티테넌트 LLM 서빙 시스템에서 자동 접두사 캐싱 (APC) 으로 인한 타이밍 사이드 채널 공격을 방지하면서도 기존 방어 기법보다 캐싱 재사용률을 70% 높이고 추론 지연을 30% 줄이는 'CacheSolidarity'라는 새로운 시스템을 제안합니다.

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri, Thaleia Dimitra DoudaliThu, 12 Ma🤖 cs.LG

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

이 논문은 중소기업의 지역 제한 인프라 환경에서 탄소 배출, 비용, 지연 시간 제약을 동시에 고려하여 마이크로서비스를 동적으로 배치함으로써 탄소 배출을 37.4% 줄이고 운영 비용을 3.6% 절감하는 'Aceso' 시스템을 제안합니다.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra DoudaliThu, 12 Ma💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

이 논문은 분산 학습 환경에서 합성곱 신경망 (CNN) 아키텍처가 모델 정확도에 미치는 영향과 계산 효율성에 영향을 주는 요인들을 분석하여, 리소스 집약적인 시나리오에서의 CNN 배포 최적화를 위한 통찰력을 제공합니다.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues MoreiraThu, 12 Ma💻 cs

Reference Architecture of a Quantum-Centric Supercomputer

이 논문은 양자 프로세서 (QPU), 그래픽 처리 장치 (GPU), 중앙 처리 장치 (CPU) 를 통합하여 양자 및 고전 고성능 컴퓨팅 (HPC) 시스템 간의 단절을 해소하고 알고리즘 탐색을 가속화하기 위한 '양자 중심 슈퍼컴퓨팅 (QCSC)'의 참조 아키텍처와 3 단계 진화 로드맵을 제시합니다.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess