cs.PF artículos | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Este artículo presenta dos técnicas de software, Escalamiento Consciente de Desbordamiento (OAS) y Escalamiento de Bloque Macro (MBS), que reducen significativamente el error de cuantización en el formato MXFP4, cerrando la brecha de precisión con NVFP4 a menos del 1% sin requerir cambios en el hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

El paper presenta ARKV, un marco ligero y adaptativo que gestiona dinámicamente la memoria de la caché KV asignando niveles de precisión según la importancia de los tokens, logrando reducir el uso de memoria en 4x sin sacrificar significativamente la precisión en inferencias de largo contexto.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Este trabajo presenta ChatNeuroSim, un marco de agentes basado en modelos de lenguaje grande que automatiza el despliegue y la optimización de aceleradores de memoria en cómputo (CIM) mediante la gestión integral del flujo de trabajo y una técnica de poda del espacio de diseño que reduce significativamente el tiempo de ejecución en comparación con los métodos tradicionales.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

El artículo presenta bsort, un algoritmo de ordenamiento no basado en comparaciones para enteros y números de punto flotante que unifica estos casos mediante una derivación del quicksort binario, logrando un tiempo de ejecución asintótico de $O(wn)$ y un espacio auxiliar de $O(w)$ , con un rendimiento competitivo en datos de tamaño de palabra pequeño.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

El artículo introduce la desigualdad $qs$ , un criterio que demuestra cómo la fragmentación de la reutilización de memoria en los modelos de Mezcla de Expertos (MoE) genera una doble penalización en la inferencia de contexto largo, volviéndolos estructuralmente menos eficientes que sus contrapartes densas de calidad equivalente.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Este artículo demuestra por primera vez que el uso directo de núcleos tensoriales FP64 en GPUs NVIDIA, combinado con optimizaciones de fusión de kernels en la biblioteca MFEM, acelera significativamente las simulaciones de elementos finitos de alto orden a escala exascale, logrando mejoras de rendimiento de hasta 2 veces y una eficiencia energética del 83% en sistemas como Alps.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Este artículo presenta y evalúa un motor de matemáticas de precisión dinámica para microcontroladores ESP32 que combina aritmética de punto fijo, un módulo CORDIC y multiplicación de matrices optimizada para lograr aceleraciones significativas en operaciones trigonométricas y de álgebra lineal mediante la conmutación en tiempo real entre rutas de ejecución de punto fijo y de coma flotante.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este trabajo demuestra que el algoritmo de dualidad del espacio de estados de Mamba-2 puede implementarse completamente mediante primitivas estándar compiladas por XLA sin kernels personalizados, logrando una inferencia autoregresiva con caché $O(1)$ portátil y de alto rendimiento en CPU, GPU y TPU.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

El artículo presenta SparseLoom, un sistema demostrador que utiliza la técnica de "model stitching" para reensamblar subgrafos de modelos dispersos sin reentrenamiento, logrando en SoCs de borde una reducción de hasta el 74% en las violaciones de objetivos de nivel de servicio, un aumento de 2,31 veces en el rendimiento y una disminución del 28% en la sobrecarga de memoria en comparación con los sistemas existentes.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Este trabajo presenta una arquitectura totalmente residente en GPU y sin bloqueos para la verificación masiva de la conjetura de Goldbach, que logra una eficiencia paralela superior al 98% y acelera el proceso en 45,6 veces al eliminar la comunicación con el host mediante un mecanismo de robo de trabajo asíncrono y el uso de memoria compartida optimizada.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

El artículo presenta DyLLM, un marco de inferencia sin entrenamiento que acelera la generación de modelos de lenguaje de difusión enmascarada al identificar y calcular selectivamente solo los tokens salientes, logrando un aumento de hasta 9,6 veces en el rendimiento sin comprometer la precisión.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

El artículo presenta RedFuser, un marco automático que fusiona operaciones de reducción en cascada en un único bucle mediante un método teórico formal, logrando aceleraciones de 2 a 5 veces en comparación con los compiladores de IA más avanzados y igualando el rendimiento de los kernels escritos a mano.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

El documento presenta RAGPerf, un marco de referencia de código abierto y bajo costo que permite el análisis detallado y la configuración modular de sistemas de generación aumentada por recuperación (RAG) mediante la evaluación de su rendimiento, uso de recursos y precisión en diversos escenarios y componentes.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Este trabajo presenta "Linear Layouts", un enfoque novedoso que modela la disposición de tensores mediante álgebra lineal sobre $\mathbb{F}_2$ para generar código eficiente, permitir conversiones genéricas entre layouts y reducir la complejidad en compiladores como Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artículo demuestra que el rendimiento real de la transferencia de datos a gran escala depende de un diseño holístico hardware-software que aborde seis paradigmas críticos más allá del ancho de banda de la red, introduciendo el modelo de "Patrón de Cuenca de Drenaje" para identificar y resolver los cuellos de botella que limitan el rendimiento en entornos de producción.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Este artículo analiza las estrategias de paralelización para la implementación de modelos de lenguaje grandes (LLM) densos, demostrando que la paralelización tensorial optimiza la latencia mientras que la paralelización de pipeline mejora el rendimiento, permitiendo mediante su combinación un control efectivo sobre el equilibrio entre ambos factores.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Este artículo presenta un controlador en línea de caja negra que optimiza el rendimiento de los modelos de lenguaje mediante mediciones de extremo a extremo y, a partir de este ejemplo, aboga por la inclusión de métricas de rendimiento y sostenibilidad del sistema en las fichas técnicas para fomentar la confianza en la IA.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Este artículo presenta el diseño, análisis y rendimiento de una lista saltatoria determinista concurrente en nodos NUMA de muchos núcleos, evaluando además implementaciones de colas y tablas hash concurrentes frente a la biblioteca TBB de Intel, e introduciendo estrategias de gestión de memoria y uso jerárquico de estructuras de datos para reducir las latencias y los fallos de página.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Esta encuesta analiza sistemáticamente los enfoques de enrutamiento y cascada dinámicos entre múltiples modelos de lenguaje grandes (LLM) independientes, proponiendo un marco conceptual que equilibra la eficiencia y el rendimiento al seleccionar modelos adaptativos según la complejidad de la consulta, superando así las limitaciones de los despliegues estáticos.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Este estudio demuestra que la versión experimental de Python 3.14 sin GIL mejora significativamente el rendimiento y la eficiencia energética en cargas de trabajo paralelizables, pero resulta contraproducente en tareas secuenciales o con alta contención de recursos debido al aumento en el uso de memoria y energía.

José Daniel Montoya Salazar2026-03-06💻 cs

cs.PF