Your Inference Request Will Become a Black Box: Confidential Inference for Cloud-based Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"클라우드에 있는 거대한 인공지능 (LLM) 을 쓰면서, 내 비밀을 지키고 동시에 AI 의 성능도 잃지 않는 방법"**을 소개합니다.

이 기술의 이름은 **'탈라리아 (Talaria)'**입니다. 그리스 신화에서 신과 인간을 오가며 자유롭게 날아다니게 해주는 '날개 달린 신발'에서 이름을 따왔습니다. 이 기술도 클라우드 (신) 와 사용자 (인간) 사이를 안전하게 오가며 데이터를 보호한다는 뜻입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 기술이 필요한가요? (현재의 문제)

지금 우리가 클라우드 AI(예: 챗GPT) 를 쓸 때의 상황을 상상해 보세요.

상황: 당신이 "내 비밀 일기"나 "회사 기밀 문서"를 AI 에게 물어봅니다.
문제: AI 를 운영하는 회사 (클라우드 제공자) 는 당신의 질문과 답변을 모두 볼 수 있습니다. 마치 편지를 우체국에 맡겼는데, 우체국 직원이 편지를 열어 읽고 내용을 다 알아버리는 것과 같습니다.
현재의 해결책들:
- 비밀번호로 잠그기 (암호화): 편지를 자물쇠로 잠가서 보내면 직원은 못 읽지만, AI 가 답을 만들려면 잠금을 풀어야 해서 속도가 매우 느려집니다.
- 내용을 비틀기 (데이터 변조): 질문을 "내 일기" 대신 "어떤 사람의 일기"라고 바꿔서 보냅니다. 하지만 이렇게 하면 AI 가 엉뚱한 답을 하거나 성능이 떨어집니다.

2. 탈라리아 (Talaria) 는 어떻게 해결하나요?

탈라리아는 **"일부만 맡기고, 나머지는 내가 처리한다"**는 독특한 방식을 사용합니다.

🏭 비유: 거대한 공장과 정교한 요리사

AI 모델을 거대한 **공장 (클라우드)**이라고 상상해 보세요. 이 공장에는 **비밀 레시피 (모델의 가중치/Weights)**가 있습니다. 이 레시피는 공장 주인만 알고 싶어 합니다.

당신은 **비밀 요리사 (사용자)**입니다. 당신은 **비밀 재료 (질문/프롬프트)**를 가지고 있습니다.

기존 방식의 문제:

재료와 레시피를 모두 공장에 맡기면, 공장 직원이 당신의 재료를 훔쳐보고, 레시피도 훔쳐볼 수 있습니다.
재료만 당신 손에 쥐고 공장에 보내면, 공장은 레시피를 다 보여줘야만 요리를 해줍니다.

탈라리아의 방식 (분할 작업):
탈라리아는 요리를 두 단계로 나눕니다.

무거운 기계 작업 (클라우드가 함):
- 공장 (클라우드) 에서는 **비밀 레시피 (모델 가중치)**를 사용해서 재료를 가공합니다.
- 하지만 공장 직원은 당신의 진짜 재료가 무엇인지 모릅니다. 왜냐하면 당신이 재료를 보낼 때 **마법 가루 (마스크)**를 섞어서 보냈기 때문입니다. 직원은 "무언가 가공된 재료"만 보게 됩니다.
정교한 맛내기 (내가 함):
- 가공된 재료가 다시 당신에게 돌아옵니다.
- 당신은 비밀 가루를 제거하는 도구를 가지고 있어서, 다시 진짜 재료의 맛을 되찾습니다.
- 그리고 **최종 맛보기 (답변 생성)**는 당신이 직접 합니다.

결과:

공장 주인: 당신의 질문 (재료) 을 볼 수 없고, 당신의 답변 (최종 요리) 도 볼 수 없습니다.
당신: 공장 레시피 (비밀 지식) 를 볼 수 없습니다.
요리 결과: 원래 AI 가 했을 때와 **완전히 똑같은 맛 (정확도)**이 나옵니다.

3. 핵심 기술: '되돌릴 수 있는 마법 가루' (ReMO)

이 기술의 핵심은 **ReMO(가역적 마스크 아웃소싱)**라는 프로토콜입니다.

마스크 (마법 가루): 당신이 공장에 보낼 때, 데이터에 무작위 숫자 (마스크) 를 더합니다. 공장 직원은 이 숫자가 섞인 데이터를 보지만, 원래 데이터가 무엇인지 추측할 수 없습니다. (97.5% 의 정확도로 추측하던 해커들이 이제 1.34% 로 추측만 할 수 있게 됩니다.)
되돌리기 (마법 제거): 공장에서 계산이 끝난 후, 그 결과물에서 당신이 미리 준비해 둔 '비밀 키'로 마법 가루를 빼냅니다.
결과: 원래 데이터와 100% 똑같은 결과가 나옵니다. (손실 없음)

4. 왜 이 기술이 특별한가요? (불가능한 삼각형 해결)

보안 분야에는 **'불가능한 삼각형'**이라는 말이 있습니다. 보통 다음 세 가지를 동시에 만족시키기 어렵습니다.

보안: 내 데이터도 숨기고, AI 의 비밀도 숨겨야 함.
성능: AI 가 똑똑하게 잘 대답해야 함.
속도: 너무 느리면 안 됨.

기존 기술들은 이 중 하나를 포기해야 했습니다.

보안만 지키면 속도가 느리고,
속도를 내면 보안이 약해지고,
성능을 유지하면 데이터가 유출됩니다.

탈라리아는 이 세 가지를 모두 잡았습니다.

보안: 질문과 답변 모두 클라우드에 유출되지 않음.
성능: AI 가 원래 하던 대로 똑똑하게 답함 (비트 단위까지 동일).
속도: 기존 보안 기술들보다 훨씬 빠르고 효율적임.

5. 결론

이 논문의 탈라리아는 마치 **"우체국 직원이 편지를 못 보게 하되, 편지 내용도 변하지 않고, 우편물도 빨리 도착하게 하는 마법의 봉투"**와 같습니다.

이 기술을 통해 우리는 앞으로 클라우드 AI 를 사용할 때, 내 개인정보나 기밀 정보가 유출될까 봐 걱정하지 않고, AI 의 비밀 레시피가 훔쳐질까 봐 걱정하지도 않으면서, 빠르고 똑똑한 서비스를 계속 이용할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Talaria - 클라우드 기반 LLM 을 위한 기밀 추론 프레임워크

1. 문제 정의 (Problem)

클라우드에 호스팅된 대규모 언어 모델 (LLM) 의 사용이 증가함에 따라, 사용자의 프롬프트 (입력) 와 모델의 응답 (출력) 이 서비스 제공자 (클라우드) 에게 노출되는 심각한 프라이버시 위협이 발생하고 있습니다.

현재의 한계: 기존 프라이버시 보호 기술들은 세 가지 핵심 요구사항인 모델 프라이버시 (Model Privacy), 모델 성능 (Model Performance), 모델 효율성 (Model Efficiency) 을 동시에 만족시키지 못합니다.
- 차분 프라이버시 (DP): 입력을 변형하여 성능 저하를 초래함.
- 동형 암호화 (HE): 연산 오버헤드가 너무 커서 실용성이 낮음.
- 기존 CVM(Confidential Virtual Machine) 기반: 프롬프트는 보호하지만 응답이나 모델 가중치가 유출될 수 있어 완전한 보호가 안 됨.
목표: 클라우드 제공자가 사용자의 입력과 출력을 알 수 없으면서도, 모델의 지식재산권 (가중치) 은 보호하고, 추론 성능과 효율성을 유지하는 솔루션 필요.

2. 방법론 (Methodology)

저자들은 Talaria라는 새로운 기밀 추론 프레임워크를 제안했습니다. 이는 기밀 분할 추론 (Confidential Partitioned Inference, CPI) 과 가역적 마스킹 아웃소싱 (Reversible Masked Outsourcing, ReMO) 프로토콜을 핵심으로 합니다.

시스템 아키텍처:
- 클라이언트 측 (CVM): 민감한 데이터 (프롬프트, 응답) 와 가중치에 의존하지 않는 연산 (정규화, 어텐션 점수 계산, 샘플링 등) 을 실행합니다.
- 클라우드 측 (GPU): 모델의 가중치 (Weights) 를 보유하고 있으며, 가중치에 의존하는 연산 (선형 투영 등) 을 수행합니다.
- 분할 전략: LLM 레이어를 '가중치 의존 (Weighted)' 연산과 '구조적 (Structural, 가중치 무관)' 연산으로 나누어 각각 다른 환경에서 실행합니다.
핵심 기술: ReMO (Reversible Masked Outsourcing) 프로토콜
- 목적: 클라우드에 데이터를 보내기 전에 중간 임베딩 (Intermediate Embeddings) 을 마스킹하여 원본을 숨기되, 클라우드가 가중치를 역추적하지 못하게 합니다.
- 하이브리드 마스킹 (Hybrid Masking):
  1. Setup: CVM 이 공개 베이스 마스크 ( $M_{pub}$ ) 를 생성하여 클라우드에 보내고, 클라우드가 이를 모델 가중치 ( $W$ ) 와 곱한 $R_{pub} = M_{pub}W$ 를 반환합니다.
  2. Inference: 각 토큰 생성 시, CVM 은 임시 개인 마스크 ( $M_{pvt}$ ) 를 생성하여 전체 마스크 $M = M_{pvt}M_{pub}$ 를 만듭니다.
  3. Outsourcing: 입력 임베딩 $E$ 에 $M$ 을 더한 마스킹된 데이터 $\hat{E} = E + M$ 만 클라우드에 전송합니다.
  4. Recovery: 클라우드는 $\hat{O} = \hat{E}W$ 를 계산하여 반환합니다. CVM 은 로컬에서 $R = M_{pvt}R_{pub}$ 를 계산하여 $\hat{O}$ 에서 빼면 원래의 정확한 결과 $O = EW$ 를 복원합니다.
- 보안성: 클라우드는 $W$ 를 알지 못하며, CVM 은 $M$ 을 알지 못하므로 상호 간에 민감 정보를 유출하지 않습니다.

3. 주요 기여 (Key Contributions)

최초의 양방향 보호: 클라우드 기반 LLM 추론에서 사용자의 프롬프트와 응답을 동시에 클라우드로부터 보호하는 첫 번째 작업입니다.
불가능한 삼각형 (Impossible Trinity) 의 균형 달성:
- 프라이버시: 클라우드가 모델 가중치를 알지 못하게 하고, 클라이언트가 입력/출력을 유출당하지 않게 합니다.
- 성능 (Lossless): ReMO 프로토콜은 대수적으로 손실 없이 (Bit-for-bit identical) 원본 모델과 동일한 출력을 보장합니다.
- 효율성: 전체 모델을 CVM 에 올리는 방식보다 훨씬 확장성이 높고 지연 시간이 짧습니다.
강력한 보안 증명: 최신 공격 (TokenInfer 등) 에 대해 토큰 재구성 정확도를 97.5% 이상에서 평균 1.34% 로 극적으로 낮췄습니다.

4. 실험 결과 (Results)

보안 평가 (Protection):
- Token Reconstruction Accuracy (TRA): 프롬프트 및 응답 재구성 공격에 대한 정확도가 평균 1.34% (프롬프트) 및 1.25% (응답) 로 떨어졌습니다. (기존 무보호 상태: 97.5% 이상)
- Cosine Semantic Similarity (CSS): 의미적 유사도가 0.95 이상에서 0.47 미만으로 감소하여 공격이 실패했음을 입증했습니다.
- 다양한 모델 (Llama3, Qwen3) 과 데이터셋 (Midjourney, WikiText, Patient Notes) 에서 일관된 성능을 보였습니다.
효율성 평가 (Efficiency):
- 확장성: 동시 접속 클라이언트 수가 증가할 때, 기존 CVM 방식 (Full Isolation) 보다 지연 시간 (Latency) 증가폭이 훨씬 작았습니다.
- TTFT (Time to First Token): 긴 입력 시에도 다른 보안 기법들보다 가장 빠른 초기 응답 속도를 보였습니다.
출력 불변성 (Output Invariance): Talaria 를 적용한 경우와 적용하지 않은 경우의 출력이 100% 일치하여 성능 저하가 전혀 없음을 확인했습니다.

5. 의의 및 중요성 (Significance)

규제 준수 및 신뢰 확보: GDPR, HIPAA 등 데이터 보호 규정을 준수하면서도 클라우드 LLM 의 강력한 기능을 활용할 수 있는 실질적인 솔루션을 제시합니다.
상용화 가능성: 동형 암호화 같은 고비용 기법 대신, 기존 클라우드 인프라 (CVM, GPU) 를 활용하여 효율적으로 프라이버시를 보호하므로 실제 서비스 도입이 용이합니다.
모델 지식재산권 보호: 클라우드 제공자가 모델 가중치를 유출당하지 않도록 보호함으로써, LLM 서비스 제공자의 비즈니스 모델도 보호합니다.

결론적으로, Talaria 는 클라우드 LLM 의 프라이버시, 성능, 효율성이라는 상충되는 요구사항을 해결하여, 사용자의 민감한 데이터와 서비스 제공자의 모델 지식재산권을 모두 보호하는 '블랙박스'와 같은 안전한 추론 환경을 실현한 획기적인 연구입니다.

Your Inference Request Will Become a Black Box: Confidential Inference for Cloud-based Large Language Models

1. 왜 이 기술이 필요한가요? (현재의 문제)

2. 탈라리아 (Talaria) 는 어떻게 해결하나요?

🏭 비유: 거대한 공장과 정교한 요리사

3. 핵심 기술: '되돌릴 수 있는 마법 가루' (ReMO)

4. 왜 이 기술이 특별한가요? (불가능한 삼각형 해결)

5. 결론

논문 요약: Talaria - 클라우드 기반 LLM 을 위한 기밀 추론 프레임워크

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 중요성 (Significance)

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization