OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

본 논문은 비전 - 언어 - 행동 모델의 다중 태스크 병렬 실행 시 발생하는 비효율성을 해결하기 위해 KV 캐시를 공유 자원으로 관리하는 'OxyGen'을 제안하여, 기존 대비 최대 3.7 배의 속도 향상과 동시에 고품질 액션 생성을 가능하게 합니다.

Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 OxyGen: 로봇의 '멀티태스킹'을 위한 숨겨진 엔진

이 논문은 **로봇이 여러 일을 동시에 할 때, 어떻게 하면 더 빠르고 효율적으로 움직일 수 있을까?**라는 질문에 답합니다.

지금까지의 로봇 AI는 "한 번에 한 가지 일만 제대로" 하도록 설계되어 있었습니다. 예를 들어, 로봇이 컵을 집어 올리는 동작을 하는 동안, 동시에 사용자에게 "지금 컵을 들고 있어요"라고 말하거나 주변 환경을 기억해야 한다면, 기존 시스템은 이 일을 순서대로 처리하거나 별도의 뇌를 따로 써야 했습니다. 그 결과 로봇은 느려지고, 배터리도 빨리 닳았죠.

이 논문은 OxyGen이라는 새로운 시스템을 제안하며, "로봇의 기억 (KV Cache) 을 공유해서 모든 일을 동시에 빠르게 처리하자"고 말합니다.


🧠 비유로 이해하는 OxyGen

이 시스템을 이해하기 위해 **요리사 (로봇)**와 **메모장 (KV Cache)**을 예로 들어볼게요.

1. 기존 방식 (고립된 실행): "혼자서 모든 걸 다시 하는 요리사"

기존 로봇 AI 는 다음과 같이 행동합니다.

  • 상황: 요리사가 손님이 "파스타를 만들어줘" (언어 작업) 라고 하고, 동시에 "소스를 저어줘" (동작 작업) 라고 합니다.
  • 기존 방식: 요리사는 먼저 파스타 레시피를 다시 읽고 메모장에 적고, 소스를 저으라는 지시를 다시 읽고 메모장에 적습니다.
  • 문제점: 같은 재료를 보고 같은 메모를 두 번이나 하는 셈입니다. (중복 계산) 게다가 요리사가 메모장을 쓰느라 소스를 저을 시간이 늦어지거나, 반대로 소스를 저으느라 메모를 못 쓰는 경쟁이 발생합니다.

2. OxyGen 방식 (통합된 KV 캐시 관리): "공유 메모장을 쓰는 팀"

OxyGen 은 이 문제를 해결하기 위해 공유 메모장 (Unified KV Cache) 개념을 도입합니다.

  • 상황: 같은 재료를 보고 같은 상황을 인식했습니다.
  • OxyGen 방식:
    1. 한 번만 읽기 (Cross-task KV Sharing): 요리사는 재료를 한 번만 보고 메모장에 핵심 정보를 적습니다. 이 메모장은 '파스타 만들기'와 '소스 저어주기' 두 작업이 함께 공유합니다.
    2. 동시 작업 (Cross-frame Continuous Batching): 파스타를 만드는 동안, 요리사는 동시에 다른 손님의 주문 (이전 프레임의 언어 작업) 도 처리합니다. 마치 여러 주문을 한 번에 묶어서 (Batching) 효율적으로 처리하듯, 로봇은 여러 작업을 끊기지 않고 연속적으로 처리합니다.

🚀 OxyGen 이 가져온 놀라운 변화

이 논문의 실험 결과 (π0.5 모델 사용) 는 다음과 같은 성과를 보여줍니다.

  1. 속도 3.7 배 증가: 로봇이 컵을 집는 속도 (Action Frequency) 가 초당 19 회에서 70 회로 빨라졌습니다. 이는 로봇이 훨씬 더 부드럽고 빠르게 움직일 수 있음을 의미합니다.
  2. 동시성 확보: 로봇이 동시에 "이제 컵을 들었어요"라고 말하며 (언어 생성), 손으로 컵을 집는 동작을 멈추지 않고 수행할 수 있게 되었습니다.
  3. 에너지 절약: 불필요한 계산을 줄여 전기를 최대 78% 까지 절약했습니다. (배터리가 오래 가는 로봇!)

💡 핵심 요약

  • 문제: 로봇이 여러 일을 동시에 할 때, 같은 정보를 반복해서 계산하고 자원을 다투느라 느려졌습니다.
  • 해결책 (OxyGen): **공유 메모장 (Unified KV Cache)**을 만들어, 같은 정보는 한 번만 읽고 모든 작업이 이를 공유하게 했습니다.
  • 결과: 로봇은 더 빠르고, 더 부드럽게, 더 적은 전기로 여러 일을 동시에 처리할 수 있게 되었습니다.

마치 한 명의 요리사가 여러 개의 주문을 동시에 처리하되, 재료를 한 번만 다듬고 모든 요리에 활용하는 것처럼, OxyGen 은 로봇 AI 의 효율성을 혁신적으로 높여줍니다. 이제 로봇은 인간처럼 "말하면서 일하고, 일하면서 기억하는" 자연스러운 존재가 될 수 있는 발판을 마련했습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →