ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

이 논문은 메모리-연산 간 데이터 전송 오버헤드를 줄이는 컴퓨트 인 메모리 (CIM) 아키텍처의 설계 공간 탐색 (DSE) 주기를 단축하고 최적 설계를 자동화하기 위해, 대규모 언어 모델 (LLM) 기반 에이전트 프레임워크인 ChatNeuroSim 과 설계 공간 가지치기 기법을 제안합니다.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

이 논문은 정수와 부동소수점 숫자를 위한 이진 퀵소트에서 유래한 비비교 기반 정렬 알고리즘 'bsort'를 제안하며, 이는 작은 단어 크기의 데이터 유형에서 O(wn)O(wn) 시간 복잡도와 O(w)O(w) 보조 공간으로 실행되어 최적화된 하이브리드 알고리즘과 경쟁력 있는 성능을 보입니다.

Benjamín GuzmánWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

이 논문은 혼합 전문가 (MoE) 모델이 훈련 시 효율적이지만 추론 시 '이중 페널티'로 인해 대역폭 병목 현상이 발생하여 긴 컨텍스트 환경에서 밀집형 모델보다 성능이 저하될 수 있음을 'qs 부등식'을 통해 규명하고, MoE 를 훈련 최적화 기법으로 간주하고 추론 효율성을 위해 밀집형 모델로 증류하는 방안을 제안합니다.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

이 논문은 중앙 집중식 처리의 한계를 극복하기 위해 하드웨어와 물리 법칙을 공동으로 안내하는 분산 과학 머신러닝 프레임워크 'EPIC'을 제안하여, 경량 인코딩과 물리 인식 디코딩을 통해 통신 지연과 에너지 소모를 획기적으로 줄이면서도 물리적 정밀도를 유지하거나 향상시킨다는 점을 보여줍니다.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

이 논문은 기능적 오류가 있더라도 LLM 이 생성한 RTL 에서 추출된 합성 네틀리스트가 의도된 기능의 구조적 패턴을 보존한다는 통찰을 바탕으로, 레이블이 부족한 회로 설계 분야에서 고품질 데이터의 병목 현상을 해결하고 실제 회로에 일반화되는 효과적인 네틀리스트 표현 학습 프레임워크를 제안합니다.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

이 논문은 뇌의 수지상 구조에서 영감을 받아 시공간 스파이크 시퀀스를 식별하고 그래디언트 없이 재배선 학습을 수행하는 'DendroNN'을 제안하며, 이를 통해 기존 뉴로모픽 하드웨어 대비 최대 4 배의 에너지 효율성을 달성하는 비동기 디지털 하드웨어 아키텍처를 제시합니다.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

이 논문은 CNN 과 트랜스포머 모델을 모두 지원하며 LoRA 와 같은 파라미터 효율적 미세 조정 전략을 통해 메모리 및 연산 제약이 심한 극단적 엣지 장치에서도 온디바이스 학습을 가능하게 하는 하드웨어 가속 프레임워크 'TrainDeeploy'를 제안합니다.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

이 논문은 로지크 구조 플래시 장치에서 작은 객체 워크로드의 쓰기 증폭을 줄이기 위해 해시 충돌 확률을 높여 세트 채움률을 개선하고, 메모리 오버헤드를 줄이는 불룸 필터 기반 인덱싱 및 하이브리드 핫니스 추적을 도입한 'Nemo'라는 새로운 캐시 아키텍처를 제안합니다.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

이 논문은 RRAM 의 노이즈로 인한 성능 저하를 해결하기 위해 노이즈가 없는 SRAM 에 LoRA 분기를 배치하고 노이즈 환경에 강인하도록 학습하는 'HaLoRA'를 제안하여, 하이브리드 CIM 아키텍처에서 에너지 효율성을 극대화하면서도 LLM 의 추론 정확도를 유지하거나 향상시키는 방법을 제시합니다.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

이 논문은 HDL 코드의 구조적 및 어휘적 불일치 문제를 해결하기 위해 추상 구문 트리와 데이터 흐름 그래프를 통합한 'HDLxGraph' 프레임워크와 실세계 HDL 프로젝트 기반의 'HDLSearch' 벤치마크를 제안하여, 기존 RAG 기반 방법론보다 검색, 디버깅, 코드 완성 정확도를 크게 향상시켰음을 보여줍니다.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

이 논문은 풀레이어 (fully parallel) 구현 시 발생하는 데이터 감소로 인한 하드웨어 비효율성을 해결하기 위해, CNN 의 데이터 흐름을 분석하여 저속 신호를 인터リーブ하고 하드웨어 유닛을 공유하는 새로운 데이터율 인지 연속 흐름 아키텍처를 제안하여 단일 FPGA 에서 MobileNet 과 같은 복잡한 CNN 을 높은 처리량으로 구현할 수 있음을 보여줍니다.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

이 논문은 인간 뇌의 모듈화 구조에서 영감을 받아 3.5D 웨이퍼 스케일 칩릿 아키텍처에서 MoE 기반 대규모 언어 모델의 효율적인 훈련을 가능하게 하는 알고리즘 - 하드웨어 공동 설계 프레임워크인 '모차르트 (Mozart)'를 제안합니다.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

이 논문은 5G 네트워크의 실시간 지능형 재밍 탐지를 위해 FPGA 에서 효율적으로 실행 가능한 경량화되고 해석 가능한 합성곱 트세틀린 머신 (CTM) 을 제안하며, 실제 5G 테스트베드 실험을 통해 기존 CNN 대비 학습 속도와 메모리 효율성을 크게 개선하면서도 유사한 탐지 성능을 입증했습니다.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

이 논문은 현대 프로세서의 메모리 병목 현상을 해결하기 위해 실행 중 관찰된 데이터 패턴을 학습하고 애플리케이션 데이터의 의미적 특성을 활용하는 머신러닝 기반의 데이터 인식형 마이크로아키텍처 기법들을 제안하여 성능과 에너지 효율을 획기적으로 향상시켰음을 보여줍니다.

Rahul BeraTue, 10 Ma🤖 cs.LG