cs.DC 편의 논문 | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

이 논문은 합의 프로토콜과 저장 엔진 간의 중복 지속성 작업으로 인한 I/O 오버헤드를 해결하기 위해 키 - 값 분리 아키텍처와 Raft 를 혁신적으로 통합하여 읽기 및 쓰기 성능을 대폭 향상시킨 분산 키 - 값 저장소 'Nezha'를 제안합니다.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

이 논문은 클라우드-에지-단말 계층에 OODA 루프를 통합하고 네트워크 기능 가상화 (NFV) 기술을 활용하여 동적이고 불확실한 환경에서 UAV 스웜의 적응성과 확장성을 향상시키는 계층적 H-OODA 프레임워크를 제안하고, 자율 의사결정과 협력 제어를 결합한 사례 연구 및 향후 과제 분석을 통해 그 유효성을 검증합니다.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

이 논문은 온디바이스 LLM 추론 시 발생하는 PIM 메모리 속성 및 레이아웃 불일치 문제를 해결하여 캐시 가능 영역과 비캐시 가능 영역 간의 모순을 완화하고, DRAM 더블 버퍼링 및 온라인 가중치 재배열 기법을 통해 메모리 용량을 약 48% 절감하면서도 이론적 최대 성능을 유지하는 소프트웨어 전용 방법론인 'PIM-SHERPA'를 제안합니다.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

이 논문은 기존 GPU 구현의 I/O 병목 및 경쟁 문제를 해결하기 위해 FlashAssign 및 정렬 역변경 업데이트 같은 커널 수준의 혁신을 도입하여, cuML 및 FAISS 대비 최대 200 배 이상의 속도로 온라인 $k$ -means 처리를 가능하게 하는 'Flash-KMeans'를 제안합니다.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

이 논문은 Mamba-2 의 상태 공간 이중성 알고리즘을 XLA 의 퓨전 및 타일링 최적화에 매핑하여 커스텀 커널 없이 CPU, NVIDIA GPU, Google Cloud TPU 등 다양한 하드웨어에서 $O(1)$ 자동회귀 캐싱을 지원하는 포터블 컴파일러 기반 구현을 제시합니다.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

이 논문은 100Gb/s WAN 링크를 통해 외부로 데이터를 전송하는 T2_BR_SPRACE 스토리지 프론트엔드의 가상화 아키텍처를 분석하여, 실제 부하 하에서 51.3Gb/s 의 집계 처리량과 페르미랩으로의 단일 데이터 흐름에서 41.5Gb/s 의 피크 속도를 달성한 성능을 입증했습니다.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

이 논문은 송신자와 수신자 간에 공통 무작위성을 공유하지 않더라도 국소적 차등 프라이버시를 보장하면서도 손실 없는 전송보다 훨씬 효율적인 '랜덤화 분산 함수 계산 (RDFC)' 프레임워크를 제안하고, 이를 통해 프라이버시 보호가 필요한 분산 계산 시스템에서 에너지 효율적인 의미론적 통신 전략을 제시합니다.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

이 논문은 재학습 없이 희소 모델의 서브그래프를 재조합하는 '모델 스티칭' 기법과 이를 에지 SoC 에 배포한 SparseLoom 시스템을 제안하여, 기존 멀티 DNN 추론 시스템 대비 SLO 위반률을 최대 74% 감소시키고 처리량을 2.31 배 향상시키며 메모리 오버헤드를 평균 28% 절감하는 것을 실험적으로 입증했습니다.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

이 논문은 안전-중요 자율 시스템에서 데이터 신선도 제약을 기반으로 작업 오프셋을 조정하여 Just-in-Time 방식으로 데이터를 생산함으로써, LET 패러다임의 인위적 지연과 리소스 비효율성을 제거하면서도 전 세계 EDF 의 100% 스케줄링 용량을 보장하는 새로운 작업 기반 스케줄링 프레임워크를 제안합니다.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

이 논문은 과학적 컴퓨팅에서 널리 사용되는 타일 기반 압축 아키텍처를 고려하여 이질적인 랜덤 필드에 대한 유한 블록 길이 레이트-왜곡 이론을 정립하고, 공간 상관관계와 타일 크기가 레이트 및 분산에 미치는 영향을 정량화하는 새로운 비점근적 한계를 제시합니다.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

이 논문은 기존 시간 기반 접근 제어의 한계를 지적하고, 메모리 일관성 모델 (MESI) 을 권한 관리에 적용한 '역량 일관성 시스템 (CCS)'을 제안하여, 에이전트 실행 환경에서 권한 취소 지연으로 인한 무단 접근을 시간 의존적 스케일링이 아닌 실행 횟수에 기반한 안전한 상한선으로 제어하는 새로운 프레임워크를 제시합니다.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

이 논문은 확률적 스트래거 환경에서 BACC 와 LeTCC 두 가지 일반 부호화 계산 기법의 평균 근사 오차가 서버 수 $N$ 이 증가함에 따라 0 으로 수렴함을 이론적으로 증명하고 실험을 통해 검증했습니다.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

EROICA 는 대규모 GPU 클러스터에서 발생하는 하드웨어 및 소프트웨어 성능 문제를 실시간으로 진단하고 근본 원인을 규명하기 위해 프로파일링 기반의 미세 관찰과 차등 관측성을 활용한 최초의 온라인 문제 해결 시스템입니다.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

이 논문은 데이터와 모델의 이질성을 모두 고려하여 개인화 연동 학습의 현실적 적용을 가능하게 하는 'Co-LoRA' 프레임워크와 새로운 멀티모달 벤치마크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

이 논문은 비전, 오디오, 언어 모듈을 각각 최적의 가속기에 매핑하는 하드웨어-소프트웨어 공동 설계 프레임워크 'NANOMIND'를 제안하여, 배터리 구동 소형 장치에서 대규모 멀티모달 모델의 온디바이스 추론 시 에너지 효율과 처리량을 획기적으로 향상시켰음을 보여줍니다.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← 이전 다음 →

cs.DC

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Multi-DNN Inference of Sparse Models on Edge SoCs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

General Coded Computing in a Probabilistic Straggler Regime

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

cs.DC

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Compiler-First State Space Duality and Portable O(1)O(1)O(1) Autoregressive Caching for Inference

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Multi-DNN Inference of Sparse Models on Edge SoCs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

General Coded Computing in a Probabilistic Straggler Regime

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference