{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

이 논문은 고속 RDMA 네트워크를 활용한 '실행 중 로드 (execute-while-load)' 방식과 적응형 멀티캐스트 파이프라인인 λ\lambdaPipe 를 통해 서버리스 환경에서 대규모 언어 모델의 빠른 확장성을 실현하고, 기존 솔루션 대비 지연 시간을 5 배 줄이고 비용을 31.3% 절감하는 λ\lambdaScale 시스템을 제안합니다.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan ChenMon, 09 Ma💻 cs

FAST: An Efficient Scheduler for All-to-All GPU Communication

이 논문은 MoE 워크로드의 트래픽 편향과 혼잡 문제를 해결하고 합성 시간을 획기적으로 단축하여 NVIDIA H200 및 AMD MI300X 클러스터에서 기존 솔루션보다 우수한 성능을 보이는 효율적인 All-to-All(v) 스케줄러 'FAST'를 제안합니다.

Yiran Lei, Dongjoo Lee, Liangyu Zhao, Daniar Kurniawan, Chanmyeong Kim, Heetaek Jeong, Changsu Kim, Hyeonseong Choi, Liangcheng Yu, Arvind Krishnamurthy, Justine Sherry, Eriko NurvitadhiMon, 09 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

이 논문은 텐서 레이아웃을 F2\mathbb{F}_2 위의 선형 대수로 모델링하는 'Linear Layouts'를 제안하여 기존 방식의 비효율성과 복잡성을 해결하고 Triton 컴파일러의 성능과 유지보수성을 대폭 향상시켰음을 보여줍니다.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

이 논문은 고대역폭 네트워크만으로는 데이터 이송 성능을 보장할 수 없음을 지적하며, 네트워크 코어 외부의 병목 요인을 규명하고 '배수지 패턴 (Drainage Basin Pattern)' 개념 모델을 제안하여 하드웨어와 소프트웨어의 통합적 설계가 대규모 데이터 이송의 예측 가능한 성능 달성에 필수적임을 실증합니다.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

이 논문은 Llama-3.1-70B 와 405B 와 같은 밀집형 LLM 의 배포 시 텐서 병렬화 (TP) 가 지연 시간 최적화에, 파이프라인 병렬화 (PP) 가 처리량 최적화에 유리하며, 두 기법을 혼합하여 지연 시간과 처리량 간의 트레이드오프를 조절할 수 있음을 실증적으로 분석합니다.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

이 논문은 확률적 제약 하의 분산 확률적 최소 - 최대 최적화 문제를 해결하기 위해 제안된 새로운 1 차 Softmax-가중 스위칭 경사법을 통해, 부분 참여 환경에서도 기존 2 단계 방법론의 민감성과 진동 없이 최적성 및 실현성 보장을 위한 수렴 이론과 실험적 유효성을 입증합니다.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl HashemiMon, 09 Ma🤖 cs.LG

StreamWise: Serving Multi-Modal Generation in Real-Time at Scale

이 논문은 대규모 실시간 멀티모달 생성 워크로드 (예: 팟캐스트 비디오) 의 지연 시간, 비용, 품질 간의 트레이드오프를 최적화하기 위해 적응형 품질 조절, 모델 병렬화, 리소스 인식 스케줄링을 통합한 'StreamWise'라는 효율적인 서비스 시스템을 제안합니다.

Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo BianchiniMon, 09 Ma🤖 cs.AI

Knowledge-driven Reasoning for Mobile Agentic AI: Concepts, Approaches, and Directions

이 논문은 제한된 자원과 간헐적 연결 환경에서 모바일 에이전트 AI 의 성능을 향상시키기 위해 과거 실행 데이터에서 재사용 가능한 의사결정 구조를 추출하고 동기화하여 온디바이스 추론에 주입하는 지식 기반 추론 프레임워크를 제안하며, 지식 노출이 비단조적으로 작용한다는 점을 강조합니다.

Guangyuan Liu, Changyuan Zhao, Yinqiu Liu, Dusit Niyato, Biplab SikdarMon, 09 Ma💻 cs

Edge Intelligence-Driven LegalEdge Contracts for EV Charging Stations: A Fedrated Learning with Deep Q-Networks Approach

이 논문은 사용자 프라이버시를 보호하고 통신 비용을 절감하면서 전기차 충전 인프라의 동적 가격 책정과 인센티브를 최적화하기 위해 연방 학습과 심층 Q-네트워크를 블록체인 기반의 LegalEdge 스마트 계약에 통합한 새로운 엣지 지능 프레임워크를 제안합니다.

Rahim Rahmani, Arman ChianehMon, 09 Ma💻 cs

Provuse: Platform-Side Function Fusion for Performance and Efficiency in FaaS Environments

이 논문은 사용자가 코드 수정 없이도 FaaS 환경에서 함수 간 호출로 인한 중복 인스턴스를 제거하여 지연 시간과 메모리 사용량을 획기적으로 줄이는 플랫폼 측의 투명 함수 융합 기술인 'Provuse'를 제안하고 그 유효성을 입증합니다.

Niklas Kowallik, Natalie Carl, Leon Pöllinger, Wei Wang, Sharan Santhahanam, David BermbachMon, 09 Ma💻 cs

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

이 논문은 LeRobot 프레임워크를 기반으로 데이터 파이프라인 재구조화, 모델 최적화 (FlashAttention, FP8 등), 그리고 고성능 인프라 구축을 통해 그라 00T-N1.5 모델의 학습 속도를 40 배 가속화한 천 개 GPU 규모의 대규모 분산 학습 플랫폼과 종단 간 평가 시스템을 제시합니다.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen SunFri, 13 Ma🤖 cs.AI