A Survey on Decentralized Federated Learning
이 논문은 2018 년부터 2026 년 초까지의 탈중앙화 연방학습 (DFL) 연구들을 체계적으로 검토하고, 기존 중앙집중식 FL 의 한계를 극복하는 두 가지 아키텍처를 분류하며, 핵심 병목 현상에 기반한 통합 분류 체계를 제시하고 향후 연구 방향을 제안합니다.
131 편의 논문
이 논문은 2018 년부터 2026 년 초까지의 탈중앙화 연방학습 (DFL) 연구들을 체계적으로 검토하고, 기존 중앙집중식 FL 의 한계를 극복하는 두 가지 아키텍처를 분류하며, 핵심 병목 현상에 기반한 통합 분류 체계를 제시하고 향후 연구 방향을 제안합니다.
이 논문은 좌표와 흐름 맵의 결합적 발견을 통해 딥러닝 기반의 정밀 시간 단계 접근법을 제시함으로써, 다양한 시공간 스케일을 가진 다중 스케일 시스템의 시뮬레이션 비용을 줄이면서도 최첨단 예측 정확도를 달성하는 프레임워크를 제안합니다.
이 논문은 Python 의 GIL 을 해제하여 CPU 및 GPU 간 데이터 로딩 병목 현상을 해결하고, 기존 PyTorch DataLoader 대비 74% 빠른 처리 속도와 더 낮은 CPU/메모리 사용량을 달성한 오픈소스 라이브러리 SPDL 을 소개합니다.
이 논문은 DNN 하드웨어 가속기의 신뢰성을 평가하고 향상시키기 위해 기존 연구의 공백을 분석하고 새로운 분석 도구를 개발하며, 효율성과 내결함성 간의 균형을 최적화하는 방법론과 AdAM 이라는 실시간 무부하 신뢰성 향상 기법을 제안합니다.
ARKV 는 LLM 의 긴 컨텍스트 추론 시 GPU 메모리 제약을 해결하기 위해 레이어별 어텐션 동역학과 토큰 중요도를 기반으로 정밀도 수준을 동적으로 할당하여 KV 캐시 메모리 사용량을 4 배 줄이면서도 기존 정확도의 약 97% 를 유지하는 경량 적응형 프레임워크를 제안합니다.
이 논문은 GPU 기반 희소 행렬 - 행렬 곱셈 (SpMM) 의 성능 저하를 해결하기 위해 적응형 행 분할, RS-Tile 표현, 그리고 부하 균형 하이브리드 커널을 도입한 RSH-SpMM 을 제안하며, 다양한 희소 작업에서 기존 최첨단 방법보다 1.27 배에서 6.13 배까지의 가속화를 달성함을 보여줍니다.
이 논문은 엣지 컴퓨팅 환경에서 데이터 프라이버시와 대역폭 효율성이 중요한 Federated Learning 기술을 체계적으로 검토하고, 최적화 전략·통신 효율성·개인정보 보호·시스템 아키텍처 네 가지 차원으로 분류하여 SCAFFOLD 와 FedAvg 등 주요 알고리즘을 MNIST 와 CIFAR-10 등 다양한 데이터셋으로 성능 평가함으로써 향후 연구 방향과 개선 과제를 제시합니다.
이 논문은 클라우드 의존도의 한계를 극복하고 전기차 충전 인프라의 고장률을 해결하기 위해, 에지 환경에서 신뢰성 있는 자율 복구와 실시간 의사결정을 가능하게 하는 'Auralink SDC' 아키텍처와 이를 뒷받침하는 다중 에이전트 시스템을 제안합니다.
이 논문은 양자화 수준과 가지치기 비율 간의 트레이드오프를 체계적으로 탐색하여 정확도 저하 없이 FPGA 기반 리저버 컴퓨팅 가속기의 하드웨어 효율성을 극대화하는 민감도 기반 압축 프레임워크를 제안합니다.
이 논문은 LLM 서비스의 KV 캐시 관리를 위해 다양한 저장 계층을 동적으로 최적화하여 비용, 처리량, 지연 시간 간의 파레토 최적 해를 찾는 'Kareto'라는 적응형 다목적 최적화 도구를 제안하고, 이를 통해 고정된 구성 대비 최대 9.3% 의 처리량 향상, 58.3% 의 지연 시간 감소, 또는 20.2% 의 비용 절감을 달성할 수 있음을 입증합니다.
이 논문은 토큰 단위 KV 캐시 제거와 PagedAttention 을 결합한 'Compressed PagedAttention'과 이를 구현한 'Zipage'를 제안하여, 대규모 수학 추론 작업에서 풀 KV 인ference 엔진의 성능을 약 95% 유지하면서 2.1 배 이상의 처리 속도 향상을 달성함을 보여줍니다.
이 논문은 안전-중요 시스템에 머신러닝을 안전하게 임베딩하는 C 코드 생성기 ACETONE 을 단일 코어에서 멀티코어 아키텍처를 지원하는 병렬 코드 생성으로 확장하기 위한 프로세서 할당 문제 정의 및 관련 기술 검토를 소개합니다.
이 논문은 XR 등 새로운 분야의 복합 추론 시스템을 위해 모델 변형 선택과 GPU 공간 분할을 통해 지연 시간, 정확도, 비용을 동시에 최적화하는 'JigsawServe' 프레임워크를 제안하며, 기존 최선 대비 최대 11.3 배의 서비스 처리량 향상을 입증합니다.
이 논문은 스마트 미터와 같은 센서 네트워크 데이터의 프라이버시를 보호하기 위해 중앙 집중식 신뢰를 최소화하고 경량화된 조정을 통해 분산형 z-익명성 (deZent) 을 구현하여 중앙 서버로의 통신 오버헤드를 줄이면서도 동등한 성능을 달성하는 방법을 제시합니다.
이 논문은 비독립적·동일분포 (Non-IID) 데이터 환경에서 클라이언트 선택을 위해 클러스터 유사성과 손실 값을 고려한 경량화 전략인 FedLECC 를 제안하여, 테스트 정확도를 최대 12% 향상시키고 통신 라운드 및 오버헤드를 각각 약 22% 및 50% 감소시킨다고 설명합니다.
이 논문은 72 시간이라는 골든타임을 활용하여 실종 아동 수색을 지원하기 위해, 여러 특화 LLM 과 합의 엔진을 조율하고 QLoRA 미세조정 기법을 적용한 '가디언' 시스템의 설계와 검증을 제시합니다.
이 논문은 혼합 전문가 (MoE) 모델이 훈련 시 효율적이지만 추론 시 '이중 페널티'로 인해 대역폭 병목 현상이 발생하여 긴 컨텍스트 환경에서 밀집형 모델보다 성능이 저하될 수 있음을 'qs 부등식'을 통해 규명하고, MoE 를 훈련 최적화 기법으로 간주하고 추론 효율성을 위해 밀집형 모델로 증류하는 방안을 제안합니다.
이 논문은 민감한 클라우드 워크로드를 처리하는 기업용 제로 트러스트 아키텍처인 'Lockbox'를 제안하며, 명시적 신뢰 검증과 강력한 격리, 최소 권한 원칙을 통해 AI 기반 분석과 같은 고급 기능을 도입하면서도 보안 태세를 유지할 수 있도록 합니다.
이 논문은 중앙 집중식 처리의 한계를 극복하기 위해 하드웨어와 물리 법칙을 공동으로 안내하는 분산 과학 머신러닝 프레임워크 'EPIC'을 제안하여, 경량 인코딩과 물리 인식 디코딩을 통해 통신 지연과 에너지 소모를 획기적으로 줄이면서도 물리적 정밀도를 유지하거나 향상시킨다는 점을 보여줍니다.
이 논문은 MFEM 라이브러리의 핵심 커널에 FP64 텐서 코어와 커널 퓨전 최적화를 적용하여 Grace Hopper 및 Grace Blackwell 아키텍처에서 최대 2 배의 성능 향상과 83% 의 에너지 효율 개선을 달성하고, 알프스 시스템의 10,000 개 GPU 에서 엑사스케일 성능을 입증함으로써 대규모 유한 요소 시뮬레이션 가속화의 새로운 기준을 제시했습니다.