OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

O artigo apresenta o OxyGen, um paradigma de gerenciamento unificado de cache KV para Modelos Visão-Linguagem-Ação (VLAs) que, ao tratar o cache como um recurso compartilhado entre tarefas e ao longo do tempo, elimina redundâncias computacionais e permite a execução paralela eficiente de múltiplas tarefas em dispositivos, alcançando até 3,7 vezes mais velocidade sem degradar a qualidade das ações.

Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu

Publicado 2026-03-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um robô doméstico superinteligente. Você está na cozinha e precisa fazer três coisas ao mesmo tempo:

  1. Agir: Pegar uma maçã e colocá-la na mesa (isso precisa ser feito em frações de segundo para não derrubar nada).
  2. Falar: Contar para o dono o que você está fazendo ("Estou pegando a maçã...").
  3. Lembrar: Guardar na memória que a maçã estava na geladeira para usar depois.

O problema é que, até agora, os robôs eram como cozinheiros desajeitados. Eles tentavam fazer uma coisa de cada vez, ou tentavam fazer tudo ao mesmo tempo, mas de um jeito bagunçado que deixava tudo lento.

O Problema: A Cozinha Bagunçada (O "Isolamento")

No mundo da Inteligência Artificial, o robô usa um "cérebro" chamado Modelo VLA (Visão-Linguagem-Ação). Para pensar, esse cérebro cria um "rascunho mental" (chamado de KV Cache) com base no que vê (a imagem da cozinha).

O sistema antigo funcionava assim:

  • Para pegar a maçã, o robô lia a imagem da cozinha, fazia o rascunho mental e agia.
  • Para falar, ele lê a mesma imagem da cozinha de novo, faz outro rascunho mental idêntico e começa a falar.
  • Para lembrar, ele lê a imagem mais uma vez, faz mais um rascunho e guarda.

A analogia: É como se você fosse escrever um e-mail, mas para cada parágrafo, você tivesse que ler o livro inteiro de novo antes de escrever a primeira palavra. É um desperdício enorme de tempo e energia! Além disso, como o robô tem apenas um "cérebro" (uma placa de vídeo), essas tarefas brigavam por espaço, travando umas nas outras.

A Solução: O OxyGen (O "Gerente de Cozinha Unificado")

Os pesquisadores criaram o OxyGen. Pense nele como um Gerente de Cozinha Mestre que organiza a produção de forma inteligente.

O OxyGen muda duas regras principais:

1. Compartilhamento de Rascunhos (Cross-Task KV Sharing)

Em vez de ler a imagem da cozinha três vezes, o OxyGen diz: "Ei, todos vocês (Agir, Falar, Lembrar) estão olhando a mesma coisa! Vamos fazer um único rascunho mental agora e todos podem usar esse mesmo rascunho."

  • Resultado: O robô não perde tempo relendo o que já viu. Ele economiza energia e tempo precioso.

2. Batching Contínuo (Cross-Frame Continuous Batching)

Aqui está a parte mais genial.

  • Agir é como um maratonista de 100 metros rasos: precisa ser rápido e terminar antes que a próxima foto da cozinha apareça (dentro de 1/60 de segundo).
  • Falar é como um maratonista de longa distância: pode levar mais tempo, mas precisa manter um ritmo constante.

O sistema antigo tentava forçar o "maratonista de longa distância" a correr junto com o de 100 metros, ou esperar o de 100 metros terminar tudo antes de começar a falar.

O OxyGen cria uma esteira rolante:

  • Enquanto o robô executa a ação rápida (pegar a maçã) baseada na foto de hoje, ele aproveita o tempo livre para continuar escrevendo o texto baseado na foto de ontem e de anteontem.
  • Ele empilha várias tarefas de fala em uma única "rodada" de processamento, como se fosse um ônibus cheio de passageiros indo para o mesmo lugar, em vez de cada um pegar um táxi separado.

Os Resultados: Robôs Mais Rápidos e Eficientes

Com o OxyGen, o robô consegue:

  • Agir 3,7 vezes mais rápido: Ele consegue pegar objetos com uma fluidez incrível (70 vezes por segundo!), sem travar.
  • Falar muito mais: Ele consegue descrever o que está fazendo em alta velocidade (mais de 200 palavras por segundo).
  • Não perder qualidade: Ele não fica "bobo" ou desajeitado. A qualidade da ação continua perfeita, como se ele tivesse feito tudo do jeito antigo, mas muito mais rápido.
  • Economizar energia: Como ele não faz cálculos repetidos, gasta menos bateria.

Resumo em uma Frase

O OxyGen é como transformar uma cozinha onde cada cozinheiro tinha que ler o livro de receitas do zero para cada prato, em uma cozinha onde há um único livro aberto na mesa, e todos os cozinheiros (ação, fala, memória) trabalham juntos, sem brigar pelo espaço, fazendo tudo ao mesmo tempo de forma super rápida e eficiente.

Isso permite que os robôs do futuro não apenas "façam" coisas, mas conversem e aprendam enquanto trabalham, exatamente como os humanos fazem.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →