cs.AR artículos | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

El marco \textsc{GOMA} propone un modelo analítico basado en abstracción geométrica para obtener automáticamente mapeos óptimos globalmente en aceleradores espaciales, mejorando significativamente la eficiencia energética y reduciendo el tiempo de búsqueda en comparación con los métodos actuales.

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Este artículo presenta un método de estimación de pose humana basado en ondas milimétricas que, al aprovechar principios físicos para el preprocesamiento de datos en lugar de depender de módulos puramente impulsados por datos, logra una mayor eficiencia computacional y precisión, permitiendo su implementación en tiempo real en dispositivos de bajo costo como Raspberry Pi.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Este trabajo presenta una arquitectura de capacidades novedosa que, mediante la implementación en FPGA y un sistema operativo en tiempo real basado en Zephyr, logra la seguridad de dispositivos embebidos sin un núcleo de confianza de software en tiempo de ejecución, aislando completamente todos los subsistemas y periféricos no confiables sin requerir cambios en el hardware.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

El artículo propone un marco de dos niveles gestionado por un sistema operativo cuántico que trata a los decodificadores como aceleradores compartidos para abordar la fluctuación impredecible de la demanda de corrección de errores, logrando una reducción del 10-40% en los requisitos de hardware y facilitando así la viabilidad práctica de la computación cuántica tolerante a fallos.

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

Este documento presenta una visión impulsada por la comunidad para identificar y priorizar oportunidades de investigación y desarrollo en sistemas de aprendizaje automático basados en hardware, integrando tecnologías emergentes como la computación cuántica y de borde, con el fin de abordar los desafíos de adquisición y procesamiento de datos en la próxima generación de experimentos de física de partículas.

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

El artículo presenta RedFuser, un marco automático que fusiona operaciones de reducción en cascada en un único bucle mediante un método teórico formal, logrando aceleraciones de 2 a 5 veces en comparación con los compiladores de IA más avanzados y igualando el rendimiento de los kernels escritos a mano.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Este artículo presenta *dmaplane*, un módulo del kernel de Linux que orquesta la gestión de buffers de nivel de kernel mediante un UAPI estable, canales de comandos basados en anillos y soporte RDMA para optimizar las rutas de datos de IA, habilitando inferencia desintegrada de extremo a extremo y mejorando el rendimiento en operaciones de transferencia de memoria entre dispositivos y nodos NUMA.

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Este estudio presenta una evaluación exhaustiva de la inferencia de LLMs en GPUs AMD Instinct MI325X, demostrando que la optimización consciente de la arquitectura es crucial para maximizar el rendimiento, revelando que modelos con diferentes diseños (como MoE+MLA frente a Dense+GQA) requieren configuraciones específicas de vLLM y AITER para alcanzar un alto rendimiento y fiabilidad en cargas de trabajo de texto y visión.

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

El artículo presenta HTM-EAR, un sistema de memoria jerárquica que combina almacenamiento de trabajo basado en HNSW y almacenamiento de archivo con enrutamiento híbrido y reordenamiento, logrando preservar la precisión de consultas activas y gestionar eficazmente el olvido controlado bajo condiciones de saturación extrema, superando significativamente a estrategias tradicionales como LRU.

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Este artículo de posición enmarca la memoria de los sistemas multiagente como un problema de arquitectura informática, proponiendo una jerarquía de tres capas y destacando la consistencia de la memoria como el desafío crítico más urgente para garantizar sistemas escalables y fiables.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

Este artículo propone utilizar un pool de memoria CXL para almacenar la memoria condicional de engramas en modelos de lenguaje grandes, integrándolo en SGLang para lograr un rendimiento cercano al de la DRAM y ofrecer una solución de almacenamiento escalable y rentable sin comprometer la inferencia.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

El artículo propone un paradigma de "dispersión suave" basado en un proxy de bits significativos más altos integrado en una instrucción RISC-V personalizada que, al omitir multiplicaciones insignificantes, reduce drásticamente las operaciones MAC y el consumo de energía en redes neuronales convolucionales sin pérdida de precisión, superando significativamente a los métodos tradicionales de dispersión rígida.

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Este artículo presenta la cuantización no lineal BS-KMQ, un método que suprime valores atípicos en los bordes para reducir los requisitos de resolución de los convertidores analógico-digitales en la computación en memoria, logrando mejoras significativas en precisión, área y eficiencia energética en comparación con técnicas existentes.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Este artículo presenta un diseño eficiente y pipeline en FPGA para el módulo de búsqueda de vectores de desplazamiento de la herramienta de Copia de Patrón Intrínseco (IPC) en JPEG XS, logrando un alto rendimiento y bajo consumo energético que facilita su implementación práctica en hardware.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

Este artículo presenta una arquitectura de referencia y una hoja de ruta para los sistemas de supercomputación centrada en la cuántica (QCSC), los cuales integran unidades de procesamiento cuántico, GPU y CPU en una infraestructura co-diseñada para superar las limitaciones actuales de orquestación manual y acelerar el descubrimiento de algoritmos híbridos en aplicaciones como la química y la ciencia de materiales.

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Este artículo deriva estimaciones teóricas del límite inferior de energía por solución para optimizadores neuromórficos de aprendizaje en memoria, basadas en la termodinámica fuera del equilibrio y aplicables a cargas de trabajo de IA a gran escala.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Este trabajo presenta "Linear Layouts", un enfoque novedoso que modela la disposición de tensores mediante álgebra lineal sobre $\mathbb{F}_2$ para generar código eficiente, permitir conversiones genéricas entre layouts y reducir la complejidad en compiladores como Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

Este trabajo presenta una máquina de Ising basada en SRAM de computación en memoria digital que reformula la verificación de robustez de redes neuronales binarias como un problema de optimización binaria sin restricciones, logrando una aceleración de 178 veces y una mejora de eficiencia energética de 1538 veces al utilizar soluciones imperfectas para detectar perturbaciones adversarias.

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

El paper presenta LUMINA, un marco de exploración de arquitecturas de GPU impulsado por modelos de lenguaje grande (LLM) que utiliza análisis de cuellos de botella para identificar diseños superiores a la A100 de manera eficiente, logrando una eficiencia de exploración 17,5 veces mayor y resultados de diseño un 32,9% mejores que los enfoques basados en aprendizaje automático.

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Este trabajo presenta un acelerador en FPGA que elimina el cuello de botella de memoria en la decodificación de Gated DeltaNet (GDN) al mantener el estado recurrente persistente en la memoria BRAM on-chip, logrando una velocidad 4.5 veces superior y una eficiencia energética 60 veces mayor que una GPU NVIDIA H100.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

← Anterior Siguiente →

cs.AR