Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration
이 논문은 합의 프로토콜과 저장 엔진 간의 중복 지속성 작업으로 인한 I/O 오버헤드를 해결하기 위해 키 - 값 분리 아키텍처와 Raft 를 혁신적으로 통합하여 읽기 및 쓰기 성능을 대폭 향상시킨 분산 키 - 값 저장소 'Nezha'를 제안합니다.
131 편의 논문
이 논문은 합의 프로토콜과 저장 엔진 간의 중복 지속성 작업으로 인한 I/O 오버헤드를 해결하기 위해 키 - 값 분리 아키텍처와 Raft 를 혁신적으로 통합하여 읽기 및 쓰기 성능을 대폭 향상시킨 분산 키 - 값 저장소 'Nezha'를 제안합니다.
이 논문은 클라우드-에지-단말 계층에 OODA 루프를 통합하고 네트워크 기능 가상화 (NFV) 기술을 활용하여 동적이고 불확실한 환경에서 UAV 스웜의 적응성과 확장성을 향상시키는 계층적 H-OODA 프레임워크를 제안하고, 자율 의사결정과 협력 제어를 결합한 사례 연구 및 향후 과제 분석을 통해 그 유효성을 검증합니다.
이 논문은 온디바이스 LLM 추론 시 발생하는 PIM 메모리 속성 및 레이아웃 불일치 문제를 해결하여 캐시 가능 영역과 비캐시 가능 영역 간의 모순을 완화하고, DRAM 더블 버퍼링 및 온라인 가중치 재배열 기법을 통해 메모리 용량을 약 48% 절감하면서도 이론적 최대 성능을 유지하는 소프트웨어 전용 방법론인 'PIM-SHERPA'를 제안합니다.
이 논문은 기존 GPU 구현의 I/O 병목 및 경쟁 문제를 해결하기 위해 FlashAssign 및 정렬 역변경 업데이트 같은 커널 수준의 혁신을 도입하여, cuML 및 FAISS 대비 최대 200 배 이상의 속도로 온라인 -means 처리를 가능하게 하는 'Flash-KMeans'를 제안합니다.
이 논문은 Mamba-2 의 상태 공간 이중성 알고리즘을 XLA 의 퓨전 및 타일링 최적화에 매핑하여 커스텀 커널 없이 CPU, NVIDIA GPU, Google Cloud TPU 등 다양한 하드웨어에서 자동회귀 캐싱을 지원하는 포터블 컴파일러 기반 구현을 제시합니다.
이 논문은 100Gb/s WAN 링크를 통해 외부로 데이터를 전송하는 T2_BR_SPRACE 스토리지 프론트엔드의 가상화 아키텍처를 분석하여, 실제 부하 하에서 51.3Gb/s 의 집계 처리량과 페르미랩으로의 단일 데이터 흐름에서 41.5Gb/s 의 피크 속도를 달성한 성능을 입증했습니다.
이 논문은 송신자와 수신자 간에 공통 무작위성을 공유하지 않더라도 국소적 차등 프라이버시를 보장하면서도 손실 없는 전송보다 훨씬 효율적인 '랜덤화 분산 함수 계산 (RDFC)' 프레임워크를 제안하고, 이를 통해 프라이버시 보호가 필요한 분산 계산 시스템에서 에너지 효율적인 의미론적 통신 전략을 제시합니다.
이 논문은 재학습 없이 희소 모델의 서브그래프를 재조합하는 '모델 스티칭' 기법과 이를 에지 SoC 에 배포한 SparseLoom 시스템을 제안하여, 기존 멀티 DNN 추론 시스템 대비 SLO 위반률을 최대 74% 감소시키고 처리량을 2.31 배 향상시키며 메모리 오버헤드를 평균 28% 절감하는 것을 실험적으로 입증했습니다.
이 논문은 안전-중요 자율 시스템에서 데이터 신선도 제약을 기반으로 작업 오프셋을 조정하여 Just-in-Time 방식으로 데이터를 생산함으로써, LET 패러다임의 인위적 지연과 리소스 비효율성을 제거하면서도 전 세계 EDF 의 100% 스케줄링 용량을 보장하는 새로운 작업 기반 스케줄링 프레임워크를 제안합니다.
이 논문은 과학적 컴퓨팅에서 널리 사용되는 타일 기반 압축 아키텍처를 고려하여 이질적인 랜덤 필드에 대한 유한 블록 길이 레이트-왜곡 이론을 정립하고, 공간 상관관계와 타일 크기가 레이트 및 분산에 미치는 영향을 정량화하는 새로운 비점근적 한계를 제시합니다.
이 논문은 기존 시간 기반 접근 제어의 한계를 지적하고, 메모리 일관성 모델 (MESI) 을 권한 관리에 적용한 '역량 일관성 시스템 (CCS)'을 제안하여, 에이전트 실행 환경에서 권한 취소 지연으로 인한 무단 접근을 시간 의존적 스케일링이 아닌 실행 횟수에 기반한 안전한 상한선으로 제어하는 새로운 프레임워크를 제시합니다.
이 논문은 확률적 스트래거 환경에서 BACC 와 LeTCC 두 가지 일반 부호화 계산 기법의 평균 근사 오차가 서버 수 이 증가함에 따라 0 으로 수렴함을 이론적으로 증명하고 실험을 통해 검증했습니다.
EROICA 는 대규모 GPU 클러스터에서 발생하는 하드웨어 및 소프트웨어 성능 문제를 실시간으로 진단하고 근본 원인을 규명하기 위해 프로파일링 기반의 미세 관찰과 차등 관측성을 활용한 최초의 온라인 문제 해결 시스템입니다.
이 논문은 데이터와 모델의 이질성을 모두 고려하여 개인화 연동 학습의 현실적 적용을 가능하게 하는 'Co-LoRA' 프레임워크와 새로운 멀티모달 벤치마크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.
이 논문은 비전, 오디오, 언어 모듈을 각각 최적의 가속기에 매핑하는 하드웨어-소프트웨어 공동 설계 프레임워크 'NANOMIND'를 제안하여, 배터리 구동 소형 장치에서 대규모 멀티모달 모델의 온디바이스 추론 시 에너지 효율과 처리량을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 HPC 와 양자 프로세서 (QPU) 의 통합 시스템에서 복원력을 사후 조치가 아닌 사전 설계 제약으로 삼기 위해 정량적 모델과 지표가 필요하며, 이를 위해 토목 공학의 방법론을 적용하고 종단 사용자 가치 모델을 통해 계층 간 취약점 전파와 비용 - 편익 분석을 정립해야 한다고 주장합니다.
이 논문은 분산 딥러닝 훈련 시 병렬화, 메모리, 네트워크 토폴로지를 통합적으로 고려하여 구조화된 동적 프로그래밍을 통해 최적의 디바이스 배치를 찾는 NEST 프레임워크를 제안하며, 기존 방법론 대비 최대 2.43 배의 처리량 향상과 향상된 확장성을 입증합니다.
이 논문은 사전 정의된 워크플로우 없이도 구성 기반 런타임 오케스트레이션을 통해 분산 시스템 간의 동적 데이터 검색을 가능하게 하는 프레임워크를 제시하며, 이를 통해 통합 환경의 변화에 유연하고 확장 가능하게 대응할 수 있음을 보여줍니다.
이 논문은 대규모 AI 클러스터의 신뢰성 모델링을 위해 고장, 복구, 스케줄링 및 수리 과정의 설계 선택과 파라미터 영향을 체계적으로 평가할 수 있는 이산 사건 시뮬레이터 'AIReSim'을 제안하고 용량 계획 사례 연구를 통해 그 유효성을 입증합니다.
이 논문은 우버가 2 배 용량 모델에서 비즈니스 중요도에 따른 차등화된 'UFA(Failover Architecture)'로 전환하여, 비중요 서비스의 선제적 중단과 자동화된 안전 장치를 통해 정상 상태 자원 할당을 2 배에서 1.3 배로 줄이고 활용률을 20% 에서 30% 로 높이면서도 99.97% 의 가용성을 유지하는 성과를 거두었다고 설명합니다.