Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

이 논문은 하드웨어 변경 없이 소프트웨어 기법인 오버플로우 인식 스케일링 (OAS) 과 매크로 블록 스케일링 (MBS) 을 도입하여 MXFP4 의 양자화 오차를 줄이고 NVFP4 와의 정확도 격차를 10% 에서 1% 미만으로 축소함으로써, MXFP4 를 하드웨어 효율성을 유지하면서 NVFP4 에 버금가는 성능을 내는 실용적인 대안으로 재탄생시켰음을 보여줍니다.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim2026-03-11🤖 cs.AI

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

이 논문은 비용과 데이터 프라이버시 문제를 해결하고 기능적 정확성을 보장하기 위해 테스트벤치 기반 검증이 통합된 다중 에이전트 프레임워크를 제안하여, 로컬 파인튜닝 LLM 인 'SiliconMind-V1'이 테스트 시간 확장 방식을 통해 Verilog RTL 설계를 생성, 테스트, 디버깅할 수 있도록 함으로써 기존 최첨단 모델보다 우수한 성능을 달성했다고 설명합니다.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung Kung2026-03-11🤖 cs.AI

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

이 논문은 임베디드 AI 가속기를 위한 정밀도-지연 시간 인식 설계 공간 추론 분석 프레임워크인 ALADIN 을 제안하여, 실제 플랫폼 배포 없이도 혼합 정밀도 양자화 신경망의 추론 병목 현상과 설계 트레이드오프를 정량적으로 평가하고 하드웨어 - 소프트웨어 공동 설계를 지원할 수 있음을 보여줍니다.

T. Baldi, D. Casini, A. Biondi2026-03-11🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

ARKV 는 LLM 의 긴 컨텍스트 추론 시 GPU 메모리 제약을 해결하기 위해 레이어별 어텐션 동역학과 토큰 중요도를 기반으로 정밀도 수준을 동적으로 할당하여 KV 캐시 메모리 사용량을 4 배 줄이면서도 기존 정확도의 약 97% 를 유지하는 경량 적응형 프레임워크를 제안합니다.

Jianlong Lei, Shashikant Ilager2026-03-11🤖 cs.AI

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

이 논문은 IQM, Rigetti, IonQ 등 다양한 양자 하드웨어 플랫폼에서 측정 없이 보조 큐비트를 재활용하는 '블라인드 리셋' 기법의 성능을 평가하여, 특정 조건에서 논리 오류를 유지하면서 사이클 지연 시간을 최대 38 배까지 단축할 수 있음을 입증하고 배포 전략을 제시합니다.

Sangkeum Lee2026-03-11⚛️ quant-ph

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

이 논문은 엣지 컴퓨팅 환경에서 데이터 프라이버시와 대역폭 효율성이 중요한 Federated Learning 기술을 체계적으로 검토하고, 최적화 전략·통신 효율성·개인정보 보호·시스템 아키텍처 네 가지 차원으로 분류하여 SCAFFOLD 와 FedAvg 등 주요 알고리즘을 MNIST 와 CIFAR-10 등 다양한 데이터셋으로 성능 평가함으로써 향후 연구 방향과 개선 과제를 제시합니다.

Sales Aribe Jr., Gil Nicholas Cagande2026-03-11🤖 cs.AI

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

이 논문은 딥러닝 모델의 복잡성 증가에 따른 고성능 및 고효율 하드웨어 가속기의 필요성을 배경으로, ASIC 과 GPU 의 한계를 극복하는 재구성 가능한 FPGA 기반 가속기의 설계 최적화 기법과 최신 연구 동향을 종합적으로 검토하고 향후 과제를 제시합니다.

Soumita Chatterjee, Sudip Ghosh, Tamal Ghosh, Hafizur Rahaman2026-03-11🤖 cs.AI

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

이 논문은 토큰 단위 KV 캐시 제거와 PagedAttention 을 결합한 'Compressed PagedAttention'과 이를 구현한 'Zipage'를 제안하여, 대규모 수학 추론 작업에서 풀 KV 인ference 엔진의 성능을 약 95% 유지하면서 2.1 배 이상의 처리 속도 향상을 달성함을 보여줍니다.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan2026-03-11🤖 cs.AI

Hindsight Credit Assignment for Long-Horizon LLM Agents

이 논문은 희소 보상 환경에서 장기적 할당 문제를 해결하기 위해 사후 추론을 통해 단계별 가치 추정과 기준선을 정교화하는 새로운 프레임워크인 HCAPO 를 제안하며, WebShop 과 ALFWorld 등 다양한 벤치마크에서 기존 최첨단 방법론보다 뛰어난 성과를 입증했습니다.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

이 논문은 군 GG가 공간 MM에 전이적으로 작용할 때, X×MX \times M 위의 GG-불변 함수를 MM의 등방성 부분군 HHXX에 작용하는 불변 함수로 명시적으로 축소하는 이론을 제시하여, 기존 방법의 구조적 제약을 해소하고 임의의 군 작용과 균질한 조건부 공간에 적용 가능한 일반화된 등변 신경장 (Equivariant Neural Fields) 을 확장합니다.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI