cs.AR 편의 논문 | Gist.Science

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

이 논문은 메모리-연산 간 데이터 전송 오버헤드를 줄이는 컴퓨트 인 메모리 (CIM) 아키텍처의 설계 공간 탐색 (DSE) 주기를 단축하고 최적 설계를 자동화하기 위해, 대규모 언어 모델 (LLM) 기반 에이전트 프레임워크인 ChatNeuroSim 과 설계 공간 가지치기 기법을 제안합니다.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

이 논문은 Qwen2.5 모델의 다양한 규모와 MXFP4 및 NVFP4 포맷을 대상으로 한 체계적인 분석을 통해, MLP 상/하단 프로젝션 레이어가 FP4 양자화에 가장 민감하며 민감도가 모델의 특정 블록에만 국한되지 않는다는 사실을 규명했습니다.

Musa Cim, Burak Topcu, Mahmut Taylan KandemirWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

이 논문은 정수와 부동소수점 숫자를 위한 이진 퀵소트에서 유래한 비비교 기반 정렬 알고리즘 'bsort'를 제안하며, 이는 작은 단어 크기의 데이터 유형에서 $O(wn)$ 시간 복잡도와 $O(w)$ 보조 공간으로 실행되어 최적화된 하이브리드 알고리즘과 경쟁력 있는 성능을 보입니다.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

이 논문은 혼합 전문가 (MoE) 모델이 훈련 시 효율적이지만 추론 시 '이중 페널티'로 인해 대역폭 병목 현상이 발생하여 긴 컨텍스트 환경에서 밀집형 모델보다 성능이 저하될 수 있음을 'qs 부등식'을 통해 규명하고, MoE 를 훈련 최적화 기법으로 간주하고 추론 효율성을 위해 밀집형 모델로 증류하는 방안을 제안합니다.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

이 논문은 중앙 집중식 처리의 한계를 극복하기 위해 하드웨어와 물리 법칙을 공동으로 안내하는 분산 과학 머신러닝 프레임워크 'EPIC'을 제안하여, 경량 인코딩과 물리 인식 디코딩을 통해 통신 지연과 에너지 소모를 획기적으로 줄이면서도 물리적 정밀도를 유지하거나 향상시킨다는 점을 보여줍니다.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

이 논문은 기능적 오류가 있더라도 LLM 이 생성한 RTL 에서 추출된 합성 네틀리스트가 의도된 기능의 구조적 패턴을 보존한다는 통찰을 바탕으로, 레이블이 부족한 회로 설계 분야에서 고품질 데이터의 병목 현상을 해결하고 실제 회로에 일반화되는 효과적인 네틀리스트 표현 학습 프레임워크를 제안합니다.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

이 논문은 뇌의 수지상 구조에서 영감을 받아 시공간 스파이크 시퀀스를 식별하고 그래디언트 없이 재배선 학습을 수행하는 'DendroNN'을 제안하며, 이를 통해 기존 뉴로모픽 하드웨어 대비 최대 4 배의 에너지 효율성을 달성하는 비동기 디지털 하드웨어 아키텍처를 제시합니다.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

이 논문은 CNN 과 트랜스포머 모델을 모두 지원하며 LoRA 와 같은 파라미터 효율적 미세 조정 전략을 통해 메모리 및 연산 제약이 심한 극단적 엣지 장치에서도 온디바이스 학습을 가능하게 하는 하드웨어 가속 프레임워크 'TrainDeeploy'를 제안합니다.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

이 논문은 로지크 구조 플래시 장치에서 작은 객체 워크로드의 쓰기 증폭을 줄이기 위해 해시 충돌 확률을 높여 세트 채움률을 개선하고, 메모리 오버헤드를 줄이는 불룸 필터 기반 인덱싱 및 하이브리드 핫니스 추적을 도입한 'Nemo'라는 새로운 캐시 아키텍처를 제안합니다.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

이 논문은 RRAM 의 노이즈로 인한 성능 저하를 해결하기 위해 노이즈가 없는 SRAM 에 LoRA 분기를 배치하고 노이즈 환경에 강인하도록 학습하는 'HaLoRA'를 제안하여, 하이브리드 CIM 아키텍처에서 에너지 효율성을 극대화하면서도 LLM 의 추론 정확도를 유지하거나 향상시키는 방법을 제시합니다.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

이 논문은 HDL 코드의 구조적 및 어휘적 불일치 문제를 해결하기 위해 추상 구문 트리와 데이터 흐름 그래프를 통합한 'HDLxGraph' 프레임워크와 실세계 HDL 프로젝트 기반의 'HDLSearch' 벤치마크를 제안하여, 기존 RAG 기반 방법론보다 검색, 디버깅, 코드 완성 정확도를 크게 향상시켰음을 보여줍니다.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

이 논문은 높은 부호율과 더 낮은 논리적 오류율을 달성하여 초기 양자 오류 정정 실현을 가능하게 하기 위해, 기존보다 작은 하이퍼큐브 코드를 최적화하고 효율적인 오류 허용 인코더를 개발하여 논리적 오류율과 회로 오버헤드를 획기적으로 줄인 연구 결과를 제시합니다.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

이 논문은 풀레이어 (fully parallel) 구현 시 발생하는 데이터 감소로 인한 하드웨어 비효율성을 해결하기 위해, CNN 의 데이터 흐름을 분석하여 저속 신호를 인터リーブ하고 하드웨어 유닛을 공유하는 새로운 데이터율 인지 연속 흐름 아키텍처를 제안하여 단일 FPGA 에서 MobileNet 과 같은 복잡한 CNN 을 높은 처리량으로 구현할 수 있음을 보여줍니다.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

이 논문은 CoreML 을 우회하여 애플의 신경 엔진 (ANE) 을 직접 제어하고, 컴파일 재구성을 최적화하며 LoRA 어댑터를 지원하는 'Orion'이라는 오픈 소스 시스템을 통해 애플 기기에서 대규모 언어 모델의 온디바이스 학습과 추론을 가능하게 했음을 제시합니다.

Ramchand KumaresanTue, 10 Ma🤖 cs.LG

Space-Control: Process-Level Isolation for Sharing CXL-based Disaggregated Memory

이 논문은 CXL 기반의 분산 메모리 환경에서 프로세스 수준의 격리를 제공하는 하드웨어-소프트웨어 공동 설계인 Space-Control을 제안하며, 이는 최소한의 성능 오버헤드 (3.3%) 로 메모리 공유 시의 보안 격차를 해결합니다.

Kaustav Goswami, Sean Peisert, Venkatesh Akella, Jason Lowe-PowerTue, 10 Ma💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

이 논문은 인간 뇌의 모듈화 구조에서 영감을 받아 3.5D 웨이퍼 스케일 칩릿 아키텍처에서 MoE 기반 대규모 언어 모델의 효율적인 훈련을 가능하게 하는 알고리즘 - 하드웨어 공동 설계 프레임워크인 '모차르트 (Mozart)'를 제안합니다.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

이 논문은 5G 네트워크의 실시간 지능형 재밍 탐지를 위해 FPGA 에서 효율적으로 실행 가능한 경량화되고 해석 가능한 합성곱 트세틀린 머신 (CTM) 을 제안하며, 실제 5G 테스트베드 실험을 통해 기존 CNN 대비 학습 속도와 메모리 효율성을 크게 개선하면서도 유사한 탐지 성능을 입증했습니다.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

이 논문은 확산 모델의 높은 추론 에너지 소모 문제를 해결하기 위해 실리콘 포토닉스 기반 가속기를 제안했으며, 실험 결과 기존 최첨단 가속기 대비 3 배 이상의 에너지 효율과 5.5 배의 처리량 향상을 달성했음을 보여줍니다.

Tharini Suresh, Salma Afifi, Sudeep PasrichaTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

이 논문은 현대 프로세서의 메모리 병목 현상을 해결하기 위해 실행 중 관찰된 데이터 패턴을 학습하고 애플리케이션 데이터의 의미적 특성을 활용하는 머신러닝 기반의 데이터 인식형 마이크로아키텍처 기법들을 제안하여 성능과 에너지 효율을 획기적으로 향상시켰음을 보여줍니다.

Rahul BeraTue, 10 Ma🤖 cs.LG

ConnChecker: Automated Root-Cause Analysis for Formal Connectivity Check via Graph

ConnChecker 는 포멀 연결성 검증에서 생성된 카운터예제와 의존성 그래프를 통합하여 실패 원인을 자동으로 분류 및 분석함으로써 SoC 설계의 디버깅 시간을 최대 80% 단축하는 자동화된 루트-카즈 분석 도구입니다.

Do Ngoc Tiep, Nguyen Linh Anh, Luu Danh MinhTue, 10 Ma💻 cs

← 이전 다음 →

cs.AR