cs.AR 편의 논문 | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

이 논문은 공간 가속기에서의 행렬 곱셈 (GEMM) 매핑 공간의 조합적 폭발 문제를 해결하고, 기하학적 추상화와 분석적 모델링을 기반으로 전역 최적 해를 보장하면서도 기존 최첨단 기법 대비 에너지 - 지연 곱 (EDP) 을 2.24~4.24 배 개선하고 해답 도출 시간을 3.83~73.6 배 단축하는 'GOMA' 프레임워크를 제안합니다.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

이 논문은 mmWave 센서의 물리적 특성을 명시적으로 모델링한 전처리 기법을 도입하여 기존 데이터 중심 방식보다 파라미터를 55.7~88.9% 줄이면서도 경쟁력 있는 정확도를 유지하는 경량 실시간 인간 자세 추정 프레임워크를 제안합니다.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

이 논문은 레거시 하드웨어를 기반으로 한 새로운 능력 (capability) 아키텍처와 Zephyr 기반의 실시간 운영체제를 제안하여, 모든 소프트웨어 구성 요소와 주변 장치를 신뢰할 수 없는 것으로 간주하면서도 하드웨어 변경 없이 임베디드 장치의 무결성을 보장하는 방법을 제시합니다.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

이 논문은 양자 오류 정정을 위한 디코더의 수요 변동성을 해결하기 위해 양자 운영체제가 디코더를 공유 가속기로 관리하는 2 단계 프레임워크를 제안함으로써, 오류 정정 양자 컴퓨터의 실용성을 높이는 데 필수적인 효율적인 디코더 스케줄링의 중요성을 강조합니다.

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

이 백서 (ML-HEQUPP) 는 차세대 입자 물리 실험이 직면한 방대한 데이터 처리 및 극한 환경의 과제를 해결하기 위해, AI/ML, 에지 컴퓨팅, 이종 하드웨어, 양자 알고리즘 등 신흥 기술의 융합을 통해 하드웨어 기반 머신러닝 시스템과 물리 응용 분야에 대한 연구 개발 우선순위를 제시하는 커뮤니티 주도의 비전을 담고 있습니다.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

이 논문은 AI 데이터 전송 시 버퍼 할당, 공유, 수명 주기 관리 및 흐름 제어 등 누락된 레이어를 명시적으로 다루는 'dmaplane'이라는 Linux 커널 모듈을 제안하고, NUMA 인식 할당, RDMA 기반 분산 추론 등 다양한 성능 측정과 엔드투엔드 시나리오를 통해 그 유효성을 입증합니다.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

본 논문은 vLLM 과 AMD AITER 런타임을 활용한 AMD Instinct MI325X GPU 클러스터에서의 다양한 LLM 아키텍처 (MoE+MLA, Dense+GQA 등) 에 대한 생산 환경 추론 성능을 종합적으로 벤치마크하고, 아키텍처별 최적화 전략과 메모리 대역폭 병목 현상을 규명한 연구입니다.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

이 논문은 제한된 컨텍스트 하에서 장기 실행 에이전트의 필수 정보를 보존하기 위해 중요도 기반 추방과 하이브리드 라우팅을 통합한 계층적 티어드 메모리 시스템 HTM-EAR 을 제안하며, 포화 상태에서도 오라클 수준의 성능을 유지하면서 LRU 와 같은 기존 방식보다 필수 사실의 영구적 손실을 효과적으로 방지함을 입증합니다.

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

이 논문은 다중 에이전트 시스템의 복잡해지는 메모리 요구사항을 컴퓨터 아키텍처 관점에서 재정의하여 공유 및 분산 메모리 패러다임을 구분하고 3 계층 구조를 제안하며, 특히 다중 에이전트 간 메모리 일관성 문제를 해결해야 할 핵심 과제로 강조합니다.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

이 논문은 Engram 의 희소 접근 패턴에 최적화된 CXL 메모리 풀을 SGLang 에 통합하여, 대규모 언어 모델의 추론 성능을 저해하지 않으면서도 확장 가능하고 비용 효율적인 메모리 솔루션을 제시합니다.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

이 논문은 기존 경량화 기법의 한계를 극복하기 위해 가장 중요한 비트 (MSB) 를 기반으로 한 '소프트 희소성' 패러다임을 제안하여, ReLU 및 Tanh 활성화 함수를 사용하는 CNN 에서 정확도 손실 없이 연산량을 대폭 줄이고 전력 효율을 극대화하는 하드웨어 친화적인 근사 컨볼루션 방법을 제시합니다.

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

이 논문은 메모리 내 연산 (IMC) 시스템에서 아날로그 - 디지털 변환기 (ADC) 의 해상도 요구 사항을 줄이고 양자화 오차를 최소화하기 위해 경계 이상치를 억제하는 새로운 비선형 양자화 기법인 BS-KMQ 를 제안하고, 이를 통해 기존 설계 대비 7 배의 면적 개선과 최대 24 배의 에너지 효율 향상을 달성함을 보여줍니다.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

이 논문은 JPEG XS 의 인트라 패턴 복사 (IPC) 기능을 위한 변위 벡터 검색 모듈의 효율적인 파이프라인 FPGA 아키텍처를 제안하여, 최적화된 메모리 조직을 통해 38.3 Mpixels/s 의 처리량과 277mW 의 저전력 소모를 달성함으로써 실제 하드웨어 배포의 실현 가능성을 입증했습니다.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

이 논문은 양자 프로세서 (QPU), 그래픽 처리 장치 (GPU), 중앙 처리 장치 (CPU) 를 통합하여 양자 및 고전 고성능 컴퓨팅 (HPC) 시스템 간의 단절을 해소하고 알고리즘 탐색을 가속화하기 위한 '양자 중심 슈퍼컴퓨팅 (QCSC)'의 참조 아키텍처와 3 단계 진화 로드맵을 제시합니다.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

이 논문은 물리적 메모리의 에너지 장벽을 조절하여 최적화 및 어닐링 역학과 일치시키는 이상적인 뉴로모픽 학습 인 메모리 (LIM) 옵티마이저의 에너지 소산 하한을 유도하고, 이를 대규모 AI 워크로드에 적용하여 모델-중립적인 에너지 효율성 추정치를 제시합니다.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

이 논문은 텐서 레이아웃을 $\mathbb{F}_2$ 위의 선형 대수로 모델링하는 'Linear Layouts'를 제안하여 기존 방식의 비효율성과 복잡성을 해결하고 Triton 컴파일러의 성능과 유지보수성을 대폭 향상시켰음을 보여줍니다.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

본 논문은 이진 신경망의 강건성 검증을 QUBO 문제로 재구성하여 디지털 컴퓨트 인 메모리 (DCIM) 기반 이징 머신을 활용함으로써, CPU 기반 구현 대비 178 배의 수렴 속도 향상과 1538 배의 전력 효율 개선을 달성하는 확장 가능한 하드웨어 가속 솔루션을 제안합니다.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

이 논문은 GPU 설계 공간 탐색의 비효율성을 해결하기 위해 시뮬레이터 코드에서 아키텍처 지식을 추출하고 병목 현상을 분석하여 자동으로 탐색 규칙을 생성하는 LLM 기반 프레임워크인 'LUMINA'를 제안하며, 이를 통해 기존 머신러닝 기반 방법보다 17.5 배 높은 탐색 효율과 더 우수한 설계 성능을 달성함을 보여줍니다.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

이 논문은 FPGA 의 온칩 메모리에 GDN 의 재귀 상태를 영구적으로 유지하여 메모리 병목 현상을 해결하고, 데이터 흐름 파이프라이닝을 통해 GPU 대비 4.5 배 빠른 속도와 60 배 이상의 에너지 효율을 달성하는 선형 어텐션 디코딩 가속기를 제안합니다.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

← 이전 다음 →

cs.AR