cs.OS artículos | Gist.Science

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

El artículo presenta Pichay, un sistema de paginación bajo demanda que trata las ventanas de contexto de los LLM como una jerarquía de memoria virtual para eliminar contenido obsoleto y reducir drásticamente el consumo de recursos mediante la detección de fallos de página y la gestión de conjuntos de trabajo.

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

El artículo presenta FlexServe, un sistema de inferencia de modelos de lenguaje grandes (LLM) para dispositivos móviles que utiliza el mecanismo de aislamiento flexible de recursos (Flex-Mem y Flex-NPU) dentro de ARM TrustZone para lograr un alto rendimiento y seguridad, superando significativamente a diseños anteriores en velocidad de generación de tokens y ejecución de flujos de trabajo multi-modelo.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Este artículo propone un marco de programación basado en tareas que garantiza la frescura de los datos en sistemas autónomos mediante la sincronización de offsets de ejecución y la descomposición de grafos de dependencias, logrando así una latencia mínima y una eficiencia de recursos sin comprometer la capacidad de programación global.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

El artículo presenta EROICA, el primer sistema de resolución de problemas en línea que diagnostica con un 97,5% de éxito fallos de rendimiento en clusters de entrenamiento de modelos grandes de ~100.000 GPUs mediante perfilado en tiempo real y observabilidad diferencial, logrando una cobertura completa con impacto mínimo en la producción.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Este trabajo demuestra que el monitoreo a nivel de sistema mediante eBPF revela nuevos patrones de fuga en la Encriptación Simétrica Buscable (SSE) que fortalecen los ataques de abuso de fugas, subrayando la necesidad de considerar estas exposiciones prácticas en el diseño de defensas teóricas.

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta tesis doctoral propone superar el cuello de botella de la memoria mediante técnicas microarquitectónicas que pasan de ser ajenas a los datos a ser informadas por ellos, utilizando aprendizaje automático y características semánticas de los datos para optimizar significativamente el rendimiento y la eficiencia energética de los procesadores.

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

El artículo presenta un sistema de DNS basado en gossip estructurado que utiliza tablas de dedos de DHT y operaciones conmutativas para lograr consistencia eventual y escalabilidad en redes dinámicas masivas, reduciendo la complejidad de mensajes y eliminando la necesidad de coordinación global ante particiones de red.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Este trabajo presenta una arquitectura de capacidades novedosa que, mediante la implementación en FPGA y un sistema operativo en tiempo real basado en Zephyr, logra la seguridad de dispositivos embebidos sin un núcleo de confianza de software en tiempo de ejecución, aislando completamente todos los subsistemas y periféricos no confiables sin requerir cambios en el hardware.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent es un sistema de inferencia ágil y consciente del programa que unifica la gestión de recursos heterogéneos mediante la abstracción de flujos de trabajo como "programas LLM", logrando mejoras significativas en el rendimiento y la eficiencia de memoria en comparación con los sistemas existentes.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artículo demuestra que el rendimiento real de la transferencia de datos a gran escala depende de un diseño holístico hardware-software que aborde seis paradigmas críticos más allá del ancho de banda de la red, introduciendo el modelo de "Patrón de Cuenca de Drenaje" para identificar y resolver los cuellos de botella que limitan el rendimiento en entornos de producción.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artículo presenta resultados empíricos de una implementación en C++ de un sustrato de estado semántico determinista, denominado Compute ICE-AGE, que demuestra una latencia de recorrido invariante y un consumo de recursos estable en entornos de escala masiva (hasta 25 millones de nodos), logrando una eficiencia termodinámica superior a las arquitecturas de inferencia probabilística al depender de la capacidad de memoria en lugar del volumen de tokens.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI