Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 돈을 벌려고 할 때, 실수나 해킹으로 모든 자산을 잃지 않도록 막아주는 '안전장치 (SAE)'"**에 대해 설명합니다.

기존의 AI 거래 시스템은 "AI 가 뭐라고 말하면 그대로 실행해라"라는 방식이었습니다. 하지만 AI 가 해킹당하거나, 나쁜 조언을 듣거나, 실수를 하면 실제 돈이 날아가는 치명적인 결과가 발생합니다. 이 논문은 그 문제를 해결하기 위해 마지막 단계에서 AI 의 명령을 한 번 더 검토하고, 위험하면 강제로 수정하거나 막아주는 시스템을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "무조건 믿는 운전사"의 위험

상상해 보세요. 당신이 **자율주행 자동차 (AI 에이전트)**를 타고 있습니다. 이 차는 목적지 (수익) 를 향해 가지만, 운전석에는 **완전한 신뢰를 가진 조수석 (LLM)**이 앉아 있습니다.

기존 방식 (NoSAE): 조수석이 "저기 빨간불인데도 급하게 건너가자!"라고 외치면, 차는 무조건 그 명령을 실행합니다.
위험한 점: 만약 조수석이 해킹당했거나, 미친 사람처럼 "차량 전체를 폭파시켜!"라고 외치거나, 실수로 "내일 쓰던 돈을 다 써!"라고 명령해도 차는 멈추지 않습니다. 결과적으로 차 (자본) 가 박살 날 수 있습니다.

최근에는 이 조수석에게 **새로운 도구 (Skill)**를 쉽게 설치할 수 있게 되었습니다. 하지만 이 도구들이 바이러스를 담고 있거나, 해커가 만든 나쁜 도구일 수도 있습니다. 즉, 조수석의 말뿐만 아니라, 그가 쓰는 도구까지 믿을 수 없는 상황이 된 것입니다.

2. 해결책: "SAE(생존 의식 실행)"라는 안전 관리자

이 논문이 제안하는 SAE는 운전석과 바퀴 사이에 끼워지는 지능형 안전 관리자입니다.

역할: AI 가 "가자!"라고 외치기 전에, 그 명령이 안전한지를 마지막 순간에 확인합니다.
작동 원리:
1. 검문소 (Gatekeeper): AI 가 보낸 명령을 받아 "이건 너무 위험한 명령이야"라고 판단하면, 강제로 수정합니다.
  - 예: "10 배 레버리지로 투자해!" → SAE: "안 돼. 1 배로 줄여서 해."
2. 상황 판단 (Context): 비가 많이 오고 (시장 변동성), 도로가 미끄러울 때 (불안정한 시장) 는 속도를 더 줄입니다.
3. 신뢰도 체크 (Trust): 조수석이 믿을 수 없는 도구 (해킹당한 스킬) 를 들고 왔다면, 아예 명령을 거절하거나 더 엄격하게 제한합니다.

3. 핵심 기능: "무조건 막는 게 아니라, 안전하게 다듬는다"

SAE 는 AI 의 모든 말을 막는 게 아닙니다. **생존 (Survivability)**에 초점을 맞춥니다.

비유: 마치 스키 강사가 초보자에게 "너무 빠른 속도로 내려가면 다쳐!"라고 말하며, 스키를 느리게 타게 조정하거나 안전한 코스만 가게 하는 것과 같습니다.
핵심 기술:
- 예상 손실 제한: "최대 10% 까지는 잃어도 되지만, 50% 는 안 돼"라는 규칙을 미리 정해둡니다.
- 강제 정지 (Cooldown): 너무 자주 주문을 넣으면 (공격이나 실수), 잠시 쉬게 합니다.
- 허가된 도구만 사용: 미리 정해둔 안전한 도구 (Allowlist) 외에는 아무것도 쓸 수 없게 막습니다.

4. 실험 결과: "위험한 사고를 93% 줄였다"

논문의 저자들은 실제 비트코인 거래 데이터를 이용해 이 시스템을 테스트했습니다.

결과: 안전장치가 없는 시스템 (NoSAE) 은 큰 폭락장에서 자본의 46% 를 잃었습니다. 하지만 SAE 를 적용한 시스템은 3% 만 잃고 살아남았습니다.
비유: 폭풍우가 몰아치는 바다에서, 안전장치가 없는 배는 침몰했지만, SAE 가 달린 배는 작은 파도만 맞고 무사히 항해했습니다.
해킹 방어: 해커가 AI 를 조종해 위험한 명령을 내렸을 때, SAE 는 그 명령의 70% 이상을 막아내거나 수정했습니다.

5. 결론: "AI 가 돈을 다룰 때 필요한 '안전벨트'"

이 논문이 말하고자 하는 핵심은 다음과 같습니다.

"AI 가 똑똑해지고, 더 많은 도구를 쓸 수 있게 되었지만, 그만큼 해킹과 실수의 위험도 커졌습니다.
따라서 AI 가 내린 명령을 무조건 믿지 말고, 마지막 단계에서 '생존'을 위해 반드시 검증하고 제한하는 시스템 (SAE) 이 필수입니다."

마치 우리가 차를 탈 때 안전벨트를 매고, 에어백이 있는 것처럼, AI 가 돈을 다룰 때도 SAE 라는 안전장치가 있어야만 우리는 안심하고 AI 에게 투자를 맡길 수 있다는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

실행 계층의 새로운 공격 표면: 기존 AI 에이전트 연구는 주로 "정답을 맞추는지 (Correctness)"에 집중했으나, 도구 (Tool) 를 사용하는 에이전트와 OpenClaw 스타일 아키텍처가 등장하면서 언어 (Prompt) 가 실제 세계의 행동 (실제 거래) 으로 변환되는 **실행 계층 (Execution Layer)**이 주요 공격 표면이 되었습니다.
공급망 위험 (Skill Supply Chain Risk): skills.sh 나 ClawHub 와 같은 기술 시장 (Skill Marketplace) 의 등장으로 에이전트는 제 3 자가 개발한 설치 가능한 기술 (Skills) 을 통해 기능을 확장합니다. 이는 악성 코드나 조작된 지시사항이 에이전트의 실행 권한을 통해 직접 자산에 영향을 미칠 수 있음을 의미합니다.
암호화폐 영구 선물 (Perpetuals) 의 특성: 레버리지, 자금 수수료 (Funding Fee), 유지 증거금 (Maintenance Margin) 등의 메커니즘이 복잡하게 얽혀 있어, 작은 실행 오류 (예: 과도한 레버리지, 슬리피지 허용) 가 비선형적인 꼬리 손실 (Tail Loss) 이나 청산 (Liquidation) 으로 급격히 증폭될 수 있습니다.
기존 접근법의 한계: 기존의 위험 관리 (Stop-loss 등) 는 상류의 전략이 신뢰할 수 있다고 가정하지만, SAE 는 상류의 의도 (Intent) 를 신뢰할 수 없는 (Untrusted) 것으로 간주하고 마지막 마일 (Last-mile) 에서 강제적인 제약을 가합니다.

2. 방법론 및 제안 시스템 (Methodology: SAE)

**SAE(Survivability-Aware Execution)**는 전략 엔진 (LLM 등) 과 거래소 실행기 (Executor) 사이에 배치되는 미들웨어로, 다음과 같은 핵심 메커니즘을 가집니다.

A. 의도된 정책 명세 (Intended Policy Spec) 및 위임 격차 (Delegation Gap, DG)

의도된 정책 명세 ( $S_t$ ): 사용자의 자연어 지시가 아닌 구조화된 명세로 의도를 정의합니다.
- $T_t$ : 허용된 도구/거래소/심볼 집합.
- $R_t$ : 위험 예산 (최대 레버리지, 노미널, 주문 빈도, 슬리피지 등).
- $M_t$ : 시장 상태 제약 (변동성, 자금 수수료 극단값 등).
- $U_t$ : 계정 상태 제약 (증거금 비율, 손실 상태 등).
위임 격차 (DG): 실행 가능한 행동 중 의도된 범위를 벗어난 행동으로 인한 기대 손실을 정의합니다. 이를 통해 공격 성공률과 손실 기여도를 정량화합니다.

B. SAE 아키텍처 및 실행 계약 (Execution Contract)

SAE 는 ExecutionRequest (전략의 요청) 를 받아 ExecutionDecision (ALLOW, LIMIT, BLOCK) 을 반환합니다.

Layer 0 (기존 OMS): 고정된 레버리지/포지션 제한 등 기본 안전장치.
Layer 1 (신뢰 상태 기반 예산 조정):
- 신뢰 상태 ( $z_t$ ): 기술의 출처 (Provenance), 기능 위험도, 주입 (Injection) 경고 등을 기반으로 신뢰 점수를 산출합니다.
- 동적 예산 조정: 시장 변동성, 계정 상태, 신뢰 상태가 낮을 경우 예산 ( $B_t$ ) 을 자동으로 축소합니다.
Layer 2 (공급망 및 범위 강제): 허용된 도구/거래소/심볼에 대한 하드 Allowlist 와 상태 의존적 제약 (예: 극단적 변동성 시 '감소만' 모드) 을 적용합니다.
Layer 3 (공격 인식 평가): 공격 성공률 (AttackSuccess), 오차 차단 (FalseBlock), DG 손실 등을 시스템 지표로 보고합니다.

C. 투영 기반 강제 (Projection-based Enforcement)

요청된 행동 ( $a_{req}$ ) 을 허용된 예산 영역 ( $F(B_t)$ ) 내로 **투영 (Projection)**하여 실행 가능한 행동 ( $a_{eff}$ ) 으로 변환합니다.

수식: $a_{eff} = \arg \min_{a \in F(B_t)} D(a, a_{req})$
이는 단순한 클램핑 (Clamping) 을 넘어, 레버리지, 노미널, 슬리피지 등을 예산 범위 내에서 최적화하여 조정합니다.
이론적 보장: 투영 기반 강제화는 최악의 경우 1 단계 손실 증폭을 결정론적으로 제한한다는 보장을 제공합니다.

3. 주요 기여 (Key Contributions)

DG 측정 프로토콜: 의도된 정책 명세와 하드 아웃-오브-스케일 (Out-of-Scope) 규칙을 기반으로 재현 가능한 위임 격차 (DG) 측정 및 보고 프로토콜을 정립했습니다.
SAE 실행 계약: OpenClaw 스타일 도구 인터셉션과 기술 시장 생태계에 호환되는, 생존 가능성 중심의 실행 계약과 미들웨어 설계를 제안했습니다.
실용적 강제 알고리즘: 투영 기반 예산 관리, 시간적 불변성 (Cooldown, Rate Limit), 신뢰 상태 기반 예산 축소 알고리즘을 개발했습니다.
재현 가능한 평가: Binance USD-M 선물 데이터 (BTCUSDT/ETHUSDT, 2025 년 9 월~12 월) 를 기반으로 한 오프라인 리플레이 평가와 통계적 검증을 수행했습니다.

4. 실험 결과 (Results)

Binance 리플레이 데이터 (15 분 봉, 3 개월) 를 사용하여 NoSAE(제약 없음), StaticOMS(고정 규칙), Budget, Budget+Cooldown, Full(전체 기능) 변형을 비교했습니다.

생존 가능성 극적 개선:
- 최대 낙폭 (MDD): NoSAE(0.4643) 대비 Full 버전은 0.0319로 감소 (93.1% 개선).
- 꼬리 위험 (CVaR 0.99): NoSAE($4.025 \times 10^{-3} $) 대비 Full 버전은 약$ 1.02 \times 10^{-4}$로 감소 (약 97.5% 개선).
- 청산 발생: NoSAE 와 StaticOMS 는 청산이 발생하지 않았으나, 이는 SAE 가 극단적인 손실을 사전에 차단했음을 시사합니다.
공격 내성 (Robustness):
- 공격 성공률 (AttackSuccess): NoSAE(1.00) 에서 Full 버전으로 0.728로 감소 (27.2%p 개선).
- 오차 차단 (FalseBlock): Full 버전에서도 0.00을 유지하여, 합법적인 거래를 불필요하게 차단하지 않음을 입증했습니다.
- DG 손실: 0.647 에서 0.019 로 감소 (97.0% 개선).
통계적 유의성: 블록 부트스트랩 (Block Bootstrap), 윌콕슨 부호 순위 검정, 두 비율 검정을 통해 SAE 의 성능 향상이 통계적으로 유의미함을 확인했습니다.
오버헤드: Full 버전의 경우 결정 지연 시간 (Latency) 이 NoSAE 대비 약 7.6 배 증가했으나, 생존성 확보를 위한 합리적인 트레이드오프로 판단됩니다.

5. 의의 및 결론 (Significance)

새로운 안전 패러다임: AI 에이전트 보안이 "모델의 정확도"에서 **"실행 계층의 생존 가능성"**으로 전환되어야 함을 강조합니다.
신뢰할 수 없는 의도 가정: 제 3 자 기술 (Skills) 이 포함된 환경에서는 상류의 모든 의도를 신뢰할 수 없으며, 이를 실행 단계에서 강제적으로 검증하고 제한해야 한다는 원칙을 정립했습니다.
재현 가능한 보안 평가: 공격 성공률, 위임 격차 손실 등 정량적 지표를 통해 AI 에이전트의 보안성을 정량화하고 비교할 수 있는 표준을 제시했습니다.
실무 적용 가능성: skills.sh 스타일의 설치 가능한 기술 생태계와 OpenClaw 아키텍처에 바로 통합 가능한 미들웨어 (SAE Policy Guard) 로 구현되어, 실제 암호화폐 거래 및 기타 권한이 부여된 실행 환경 (Cloud Ops, 결제 등) 에 적용 가능한 확장성을 가집니다.

결론적으로, 이 논문은 AI 에이전트가 실제 자산을 다룰 때 발생할 수 있는 치명적인 실행 오류와 악의적 공격을 막기 위해, **마지막 마일 (Last-mile) 에서 강제적인 생존 가능성 제약 (Survivability Constraints)**을 두는 것이 필수적임을 증명했습니다.