cs.AR 편의 논문 | Gist.Science

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

이 논문은 FPGA 기반의 고성능 연산을 위해 캐리 없는 잔여 연산과 경량 지수 스케일링을 결합한 '하이브리드 잔여 부동 소수점 아키텍처 (HRFNA)'를 제안하며, 엄밀한 오차 분석과 함께 IEEE 754 기준 대비 최대 2.4 배의 처리량 향상 및 에너지 효율 개선을 입증합니다.

Mostafa DarvishiWed, 11 Ma💻 cs

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

이 논문은 하드웨어 변경 없이 소프트웨어 기법인 오버플로우 인식 스케일링 (OAS) 과 매크로 블록 스케일링 (MBS) 을 도입하여 MXFP4 의 양자화 오차를 줄이고 NVFP4 와의 정확도 격차를 10% 에서 1% 미만으로 축소함으로써, MXFP4 를 하드웨어 효율성을 유지하면서 NVFP4 에 버금가는 성능을 내는 실용적인 대안으로 재탄생시켰음을 보여줍니다.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

이 논문은 다양한 언어 모델과 프롬프트 전략 간의 상호작용을 체계적으로 분석하여 Verilog 코드 생성 성능에 영향을 미치는 일반적 경향과 모델별 고유한 특성을 실증적으로 규명했습니다.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

이 논문은 219 단어의 요구사항 문서에서 시작해 12 시간 만에 1.48GHz 로 동작하는 완전한 RISC-V CPU(VerCore) 를 RTL 설계부터 GDSII 레이아웃까지 전 과정 자율적으로 구현한 'Design Conductor'라는 자율 에이전트를 소개합니다.

The Verkor Team, Ravi Krishna, Suresh Krishna, David ChinWed, 11 Ma🤖 cs.AI

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

이 논문은 기존 벤치마크가 다루지 못했던 레포지토리 수준의 RTL 코드 진화를 평가하기 위해, 실제 IP 코어 간의 종속성을 고려하여 기능은 유지하면서 전력·성능·면적 (PPA) 을 개선하는 LLM 기반 벤치마크 및 폐루프 프레임워크인 'CktEvo'를 제안합니다.

Zhengyuan Shi, Jingxin Wang, Tairan Cheng, Changran Xu, Weikang Qian, Qiang XuWed, 11 Ma🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

이 논문은 비용과 데이터 프라이버시 문제를 해결하고 기능적 정확성을 보장하기 위해 테스트벤치 기반 검증이 통합된 다중 에이전트 프레임워크를 제안하여, 로컬 파인튜닝 LLM 인 'SiliconMind-V1'이 테스트 시간 확장 방식을 통해 Verilog RTL 설계를 생성, 테스트, 디버깅할 수 있도록 함으로써 기존 최첨단 모델보다 우수한 성능을 달성했다고 설명합니다.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

이 논문은 전기적 유효성과 기능적 제어력을 보장하며 기존 학습 데이터의 단순 암기를 탈피한 고품질 아날로그 회로 토폴로지를 자동 생성하는 새로운 프레임워크인 'AnalogToBi'를 제안합니다.

Seungmin Kim, Mingun Kim, Yuna Lee, Yulhwa KimWed, 11 Ma💻 cs

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

이 논문은 새로운 명령어 집합 구조 (ISA) 를 가진 차세대 AI 가속기용 저수준 커널을 자동으로 생성하고 최적화할 수 있는 에이전트형 LLM 의 능력을 평가하기 위해, 컴파일 및 시뮬레이션 피드백을 활용한 'KernelCraft'라는 첫 번째 벤치마크를 제안하고 이를 통해 커널 개발 비용 절감 가능성을 입증했습니다.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

이 논문은 임베디드 AI 가속기를 위한 정밀도-지연 시간 인식 설계 공간 추론 분석 프레임워크인 ALADIN 을 제안하여, 실제 플랫폼 배포 없이도 혼합 정밀도 양자화 신경망의 추론 병목 현상과 설계 트레이드오프를 정량적으로 평가하고 하드웨어 - 소프트웨어 공동 설계를 지원할 수 있음을 보여줍니다.

T. Baldi, D. Casini, A. BiondiWed, 11 Ma🤖 cs.AI

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

이 논문은 DNN 하드웨어 가속기의 신뢰성을 평가하고 향상시키기 위해 기존 연구의 공백을 분석하고 새로운 분석 도구를 개발하며, 효율성과 내결함성 간의 균형을 최적화하는 방법론과 AdAM 이라는 실시간 무부하 신뢰성 향상 기법을 제안합니다.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

이 논문은 GAP9, STM32N6, Sony IMX500 등 상용 및 연구용 엣지 및 인-센서 AI 프로세서 아키텍처를 비교 검토하고, PicoSAM2 모델을 통한 벤치마크를 통해 지연 시간, 에너지 효율성 및 에너지 - 지연 곱 측면에서 각 플랫폼의 성능과 트레이드오프를 분석합니다.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Data-Rate-Aware High-Speed CNN Inference on FPGAs

이 논문은 풀링 및 스트라이드 컨볼루션으로 인한 데이터율 감소로 인한 하드웨어 비효율성을 해결하기 위해, 다중 픽셀 처리와 데이터율 인식 설계 공간 탐색을 통해 FPGA 기반 CNN 가속기의 자원 효율성과 활용도를 극대화하는 아키텍처를 제안합니다.

Tobias Habermann, Martin KummWed, 11 Ma🤖 cs.LG

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

ARKV 는 LLM 의 긴 컨텍스트 추론 시 GPU 메모리 제약을 해결하기 위해 레이어별 어텐션 동역학과 토큰 중요도를 기반으로 정밀도 수준을 동적으로 할당하여 KV 캐시 메모리 사용량을 4 배 줄이면서도 기존 정확도의 약 97% 를 유지하는 경량 적응형 프레임워크를 제안합니다.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Fair and Square: Replacing One Real Multiplication with a Single Square and One Complex Multiplication with Three Squares When Performing Matrix Multiplication and Convolutions

이 논문은 행렬 곱셈과 컨볼루션 연산에서 실수 곱셈을 제곱 연산으로, 복소수 곱셈을 세 번의 제곱 연산으로 대체함으로써 하드웨어 게이트 수를 대폭 줄일 수 있음을 보여주고 이를 구현하는 다양한 하드웨어 아키텍처를 제안합니다.

Vincenzo LiguoriWed, 11 Ma💻 cs

cs.AR