cs.OS artigos | Gist.Science

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

O artigo apresenta o Pichay, um sistema de paginação sob demanda que trata o contexto de modelos de linguagem como uma hierarquia de memória virtual, reduzindo drasticamente o consumo de recursos ao evitarem conteúdo obsoleto e recuperando-o automaticamente quando necessário, demonstrando que problemas como limites de contexto e degradação de atenção são essencialmente questões de gerenciamento de memória.

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

O artigo apresenta o FlexServe, um sistema de inferência de LLMs para dispositivos móveis que utiliza o TrustZone da ARM com mecanismos de isolamento de recursos flexíveis (Flex-Mem e Flex-NPU) para garantir segurança e desempenho, alcançando acelerações significativas no tempo de resposta em comparação com designs anteriores.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Este artigo propõe uma nova metodologia de agendamento baseada em tarefas e restrições de frescor de dados, que utiliza atrasos de deslocamento just-in-time e um algoritmo de busca de consenso para garantir a frescura dos dados em sistemas críticos sem a latência artificial e o desperdício de recursos típicos do paradigma LET.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

O artigo apresenta o EROICA, o primeiro sistema de diagnóstico online que utiliza perfis de execução e observabilidade diferencial para identificar e resolver problemas de desempenho em clusters de treinamento de grandes modelos com até 100.000 GPUs, alcançando uma taxa de sucesso de 97,5% em ambientes de produção.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Este trabalho demonstra que o monitoramento de nível de sistema utilizando eBPF pode revelar novos padrões de vazamento em Criptografia Simétrica pesquisável (SSE), permitindo ataques de abuso de vazamento mais eficazes e destacando a necessidade de considerar essas ameaças práticas no projeto de defesas.

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Esta dissertação propõe uma mudança no design de microarquitetura de abordagens agnósticas a dados para técnicas orientadas a dados e impulsionadas por aprendizado de máquina, demonstrando em quatro estudos de caso que explorar o comportamento de execução e as características semânticas dos dados melhora significativamente o desempenho e a eficiência energética ao mitigar o gargalo de memória.

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

O artigo apresenta o "Structured Gossip DNS", um sistema de resolução de nomes escalável e resiliente a partições para redes dinâmicas em larga escala, que utiliza tabelas de dedos de DHT e estabilização passiva para reduzir a complexidade de mensagens e garantir consistência eventual sem coordenação global.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Este artigo apresenta uma nova arquitetura de capacidades implementada em FPGA que permite a criação de um sistema operacional de tempo real seguro sem TCB de software em tempo de execução, isolando completamente subsistemas e periféricos não confiáveis sem exigir alterações de hardware.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

O artigo apresenta o ThunderAgent, um sistema de inferência ágil e consciente de programas que unifica o gerenciamento de recursos heterogêneos (como cache KV e ferramentas externas) para otimizar fluxos de trabalho de agentes LLM, resultando em ganhos significativos de throughput e economia de memória em comparação com sistemas existentes.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Este artigo desafia a visão centrada na rede sobre a transferência de dados de alto desempenho, demonstrando através de seis paradigmas e do modelo "Padrão de Bacia de Drenagem" que os principais gargalos residem frequentemente fora do núcleo da rede e que um projeto holístico de hardware e software é essencial para garantir desempenho consistente e previsível em escala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artigo apresenta resultados empíricos de uma implementação em C++ do "Compute ICE-AGE", um substrato de estado semântico determinístico baseado em grafos que, ao contrário das arquiteturas de IA atuais, mantém uma latência de travessia e um consumo térmico invariantes independentemente do volume de dados, escalando apenas com a capacidade de memória.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI