The Missing Memory Hierarchy: Demand Paging for LLM Context Windows
이 논문은 LLM 의 컨텍스트 창을 메모리 계층 구조로 재해석하고, Pichay 라는 수요 기반 페이징 시스템을 통해 생산 환경에서 컨텍스트 소비를 최대 93% 까지 줄이는 동시에 상태 유지 문제를 해결하는 방법을 제시합니다.
11 편의 논문
이 논문은 LLM 의 컨텍스트 창을 메모리 계층 구조로 재해석하고, Pichay 라는 수요 기반 페이징 시스템을 통해 생산 환경에서 컨텍스트 소비를 최대 93% 까지 줄이는 동시에 상태 유지 문제를 해결하는 방법을 제시합니다.
이 논문은 ARM TrustZone 의 비효율적인 리소스 격리 문제를 해결하기 위해 유연한 메모리 및 NPU 격리 메커니즘을 도입하여 모바일 기기에서 LLM 추론 속도와 보안을 동시에 극대화하는 'FlexServe' 시스템을 제안합니다.
이 논문은 안전-중요 자율 시스템에서 데이터 신선도 제약을 기반으로 작업 오프셋을 조정하여 Just-in-Time 방식으로 데이터를 생산함으로써, LET 패러다임의 인위적 지연과 리소스 비효율성을 제거하면서도 전 세계 EDF 의 100% 스케줄링 용량을 보장하는 새로운 작업 기반 스케줄링 프레임워크를 제안합니다.
EROICA 는 대규모 GPU 클러스터에서 발생하는 하드웨어 및 소프트웨어 성능 문제를 실시간으로 진단하고 근본 원인을 규명하기 위해 프로파일링 기반의 미세 관찰과 차등 관측성을 활용한 최초의 온라인 문제 해결 시스템입니다.
이 논문은 eBPF 를 활용한 시스템 수준 모니터링이 검색 가능 대칭 암호화 (SSE) 에서 기존 위협 모델을 넘어선 새로운 누출 패턴을 드러내어 기존 공격을 강화할 수 있음을 보여줌으로써, 이론적 보안과 실제 시스템 노출 간의 격차를 해소해야 할 필요성을 강조합니다.
이 논문은 현대 프로세서의 메모리 병목 현상을 해결하기 위해 실행 중 관찰된 데이터 패턴을 학습하고 애플리케이션 데이터의 의미적 특성을 활용하는 머신러닝 기반의 데이터 인식형 마이크로아키텍처 기법들을 제안하여 성능과 에너지 효율을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 DHT 핑거 테이블과 패시브 안정화 기법을 활용하여 메시지 복잡도를 줄이고 글로벌 조정 없이도 임의의 네트워크 분할에 견고한 일관성을 보장하는 '구조화된 속삭임 DNS(Structured Gossip DNS)'를 제안합니다.
이 논문은 레거시 하드웨어를 기반으로 한 새로운 능력 (capability) 아키텍처와 Zephyr 기반의 실시간 운영체제를 제안하여, 모든 소프트웨어 구성 요소와 주변 장치를 신뢰할 수 없는 것으로 간주하면서도 하드웨어 변경 없이 임베디드 장치의 무결성을 보장하는 방법을 제시합니다.
이 논문은 기존 시스템의 비효율적인 리소스 관리를 해결하기 위해 LLM 프로그램을 추상화하고 프로그램 인식 스케줄러 및 도구 리소스 관리자를 도입하여 KV 캐시 히트율과 처리량을 극대화하는 'ThunderAgent'라는 새로운 에이전트 추론 시스템을 제안합니다.
이 논문은 고대역폭 네트워크만으로는 데이터 이송 성능을 보장할 수 없음을 지적하며, 네트워크 코어 외부의 병목 요인을 규명하고 '배수지 패턴 (Drainage Basin Pattern)' 개념 모델을 제안하여 하드웨어와 소프트웨어의 통합적 설계가 대규모 데이터 이송의 예측 가능한 성능 달성에 필수적임을 실증합니다.
이 논문은 확률적 재구성 방식의 기존 AI 와 달리, 로컬 상태 변화에만 의존하여 2500 만 노드 규모에서도 일정한 지연 시간과 낮은 CPU 사용량을 유지하는 '계산 ICE-AGE(주변 주소 지정 그래프 진화 하의 불변 계산 봉투)'라는 결정론적 의미 상태 기질의 실증적 결과를 제시합니다.