Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM, 예: 챗봇이나 AI 비서) 이 우리 삶에 깊게 들어오면서, 어떻게 하면 이 AI 시스템을 안전하게 지킬 수 있을까?"**라는 질문에 답하는 연구입니다.

특히 의료 (병원) 분야에서 AI 가 환자의 기록을 보거나 치료 계획을 세우는 등 중요한 일을 할 때, 해커가 어떻게 시스템을 공격할 수 있는지, 그리고 그 공격을 막기 위해 어디에 가장 효과적인 방어막을 쳐야 하는지를 체계적으로 분석하는 방법을 제시합니다.

이 복잡한 내용을 이해하기 쉽게 한 마디로 요약하고, 비유를 들어 설명해 드리겠습니다.

🏥 핵심 비유: "AI 병원과 해커의 침투 작전"

이 논문의 내용을 한 마디로 요약하면 다음과 같습니다.

"AI 가 병원 업무를 돕는 시스템을 만들 때, 해커가 어떻게 들어와서 환자를 해치거나 정보를 훔칠지 **공격 시나리오 (지도)**를 그리고, 그중에서 가장 약한 고리를 찾아내어 가장 효율적인 비용으로 막는 방법을 제안합니다."

이제 이 비유를 바탕으로 자세히 설명해 보겠습니다.

1. 문제: "AI 는 혼자서 일하지 않아요" (시스템의 복잡성)

기존의 보안 분석은 "AI 모델 자체"만 보거나, "웹사이트"만 보는 경우가 많았습니다. 하지만 실제 AI 는 혼자 일하지 않습니다.

비유: AI 비서가 의사를 돕는다고 가정해 봅시다. AI 는 **환자 (사용자)**와 대화하고, **병원 기록장 (EHR)**을 열어서 정보를 찾고, **약국이나 검사실 (외부 도구)**에 연락을 취합니다.
문제: 해커는 AI 가 "실수"하는 것뿐만 아니라, AI 가 연결된 기록장 문, 통신선, 외부 도구 등 어디든 공격할 수 있습니다. 기존 연구들은 이 복잡한 연결고리를 따로따로 보아서 전체적인 위험을 제대로 파악하지 못했습니다.

2. 해결책: "공격 지도 그리기 (Attack-Defense Trees)"

저자들은 이 복잡한 시스템을 한 장의 지도로 그립니다. 이를 **공격 - 방어 나무 (Attack-Defense Tree)**라고 부릅니다.

목표 (나무 꼭대기): 해커가 이루고자 하는 나쁜 목표 (예: "환자 치료 계획 조작", "비밀 의료 기록 유출", "병원 시스템 마비").
가지 (공격 경로): 목표를 이루기 위해 해커가 거쳐야 하는 단계들.
- 조건 (Precondition): 해커가 먼저 해둬야 하는 일 (예: "비밀번호 탈취", "내부망 침입").
- 실행 (Execution): 실제로 AI 를 조작하는 행위 (예: "악성 명령어 입력").
비유: 해커가 "금고 (AI 시스템)"를 털려면, 먼저 "경비원 (인증 시스템)"을 제압하고, "비밀 통로 (약점)"를 찾아서, 마지막으로 "금고 문 (AI 명령어)"을 여는 식으로 단계별 지도를 그리는 것입니다.

3. 점수 매기기: "위험도 점수판 (CVSS)"

지도가 그려지면, 각 단계가 얼마나 쉬운지 점수를 매깁니다. 여기서는 전 세계 보안 전문가들이 쓰는 CVSS 점수를 사용합니다.

비유: 해커가 "비밀번호 탈취"를 하려면 얼마나 쉬운가? (점수 높음 = 쉬움), "내부망 침입"은 얼마나 어려운가? (점수 낮음 = 어려움).
핵심 아이디어:
- 중간 단계: "해커가 들어오기 얼마나 쉬운가?" (공격 가능성)
- 최종 목표: "성공했을 때 얼마나 큰 피해인가?" (영향력)
- 이 두 가지를 합쳐서 전체 공격 경로의 위험 점수를 계산합니다.

4. 방어 전략: "가장 효율적인 비용으로 막기"

이제 가장 중요한 질문입니다. "어디에 돈을 써야 가장 효과적일까?"
저자들은 여러 방어 시나리오를 시뮬레이션해 봅니다.

시나리오 A (조건 강화): 해커가 들어오기 전에 문단속을 더 빡빡하게 (예: 2 단계 인증).
시나리오 B (실행 강화): 해커가 들어와도 AI 가 엉뚱한 말을 못하게 막기 (예: AI 가 위험한 명령을 거절하게 설정).
시나리오 C (양쪽 다 강화): 둘 다 하기.
결과: 연구에 따르면, 한쪽만 강화하는 것보다 양쪽을 균형 있게 강화하거나, 시스템의 '목' (choke point) 이 되는 부분을 먼저 막는 것이 가장 효율적이라는 것을 발견했습니다.
비유: 성벽을 높이는 것 (조건 강화) 만으로는 부족하고, 성문 자체를 튼튼하게 하는 것 (실행 강화) 도 중요합니다. 하지만 성벽을 너무 높이면 비용이 많이 들기 때문에, 해커가 가장 쉽게 들어올 수 있는 '약한 문'을 먼저 강화하는 것이 가장 현명한 투자입니다.

💡 이 연구가 우리에게 주는 교훈

AI 는 홀로 안전하지 않습니다: AI 모델 자체만 안전하게 만드는 게 아니라, AI 가 연결된 전체 시스템 (데이터, 도구, 네트워크) 을 함께 봐야 합니다.
공격 경로를 그려야 합니다: "어떤 해킹이 있을까?"라고 나열하는 것보다, "해커가 A 를 통해 B 를 거쳐 C 를 해치기까지 어떤 길을 걷는가?"를 지도로 그려야 어디를 막아야 할지 명확해집니다.
비용과 효과를 따져야 합니다: 모든 것을 완벽하게 막을 수는 없습니다. 이 프레임워크는 **"적은 비용으로 가장 큰 위험을 줄이는 곳"**을 찾아줍니다.

📝 결론

이 논문은 의료 AI를 예로 들었지만, 이 방법은 금융, 자율주행, 국가 기간망 등 AI 가 중요한 역할을 하는 모든 곳에 적용할 수 있습니다.

**"해커가 어떻게 들어올지 지도를 그리고, 그중에서 가장 약한 고리를 찾아서, 가장 효율적인 비용으로 방어막을 치자"**는 것이 이 연구의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 의료와 같은 안전-중요 (safety-critical) 시스템에 통합된 대형 언어 모델 (LLM) 의 보안 위험을 평가하고 처리하기 위한 시스템 수준의 위험 평가 프레임워크를 제안합니다. 기존 연구들이 모델 자체의 행동이나 API 수준의 위협 (프롬프트 인젝션 등) 에만 초점을 맞추는 한계를 지적하고, LLM 이 외부 도구 및 시스템과 상호작용하는 전체적인 시스템 컨텍스트에서 위협을 분석하는 새로운 접근법을 제시합니다.

다음은 논문의 주요 내용을 기술적으로 요약한 것입니다.

1. 문제 정의 (Problem)

분열된 보안 분석: 기존 LLM 보안 연구는 프롬프트 인젝션, 자일브레이크, 훈련 데이터 추출 등 모델 중심의 위협에 집중하며, 이를 실제 시스템 컨텍스트 (외부 도구 호출, 워크플로우 로직, 메모리 등) 와 분리하여 분석하는 경향이 있습니다.
복합 위협의 부재: LLM 기반 시스템은 (1) 기존 사이버 위협 (MitM, 자격 증명 도난), (2) 적대적 ML 위협 (모델 조작), (3) 대화형 위협 (프롬프트 조작) 이 복합적으로 작용합니다. 그러나 이러한 이질적인 위협들이 어떻게 결합되어 전체 시스템의 목표를 침해하는지 (공격 경로) 를 체계적으로 모델링하는 방법이 부족합니다.
초기 단계의 위험 평가 부재: 공격 그래프 (Attack Graphs) 는 배포 후의 상세한 설정에 의존하는 반면, 초기 개발 단계에서는 부분적인 시스템 지식 하에서도 실행 가능한 공격 경로와 방어 우선순위를 도출할 수 있는 체계적인 방법론이 필요합니다.

2. 방법론 (Methodology)

저자는 **목표 지향적 (Goal-driven) 공격 - 방어 트리 (ADT)**와 CVSS(Common Vulnerability Scoring System) 기반의 가산점 (Exploitability Scoring) 을 결합한 워크플로우를 제안합니다.

시스템 모델링 및 ADT 구축:
- 의료용 LLM 어시스턴트 (웹 앱, 오케스트레이터, LLM, 외부 도구, EHR 등) 의 아키텍처를 기반으로 3 가지 보안 목표 (G1: 의료 절차 간섭, G2: EHR 데이터 유출, G3: 서비스 가용성 저해) 를 설정합니다.
- 각 목표에 대해 **공격 - 방어 트리 (ADT)**를 구성합니다. 트리는 **선결 조건 (Preconditions, P)**과 **실행 (Execution, V)**으로 분해되며, 논리 연산자 (OR, AND, SAND) 를 사용하여 공격 경로를 표현합니다.
- SAND (Sequential AND) 연산자를 사용하여 선결 조건이 충족된 후 실행 단계가 이루어지는 순차적 의존성을 모델링합니다.
CVSS 기반 정량화:
- 가산점 (Exploitability) 계산: ADT 의 리프 노드 (공격 단계) 를 대표적인 CVE(공통 취약점 및 노출) 와 매핑하여 CVSS v3.1 의 가산점 벡터 (AV, AC, PR, UI) 를 할당합니다.
- 집계 로직:
  - OR 노드: 공격자가 가장 쉬운 경로를 선택하므로 자식 노드 중 최대값을 취합니다.
  - AND 노드: 모든 조건이 필요하므로 가장 어려운 (최소값) 자식 노드의 가산점을 취합니다.
  - SAND 및 조건부 복잡도: 선결 조건 (P) 집합이 실행 단계 (V) 의 공격 복잡도 (AC) 에 미치는 영향을 고려합니다. 선결 조건들의 다수결 AC 를 계산하여 실행 단계의 벡터에 반영합니다.
- 영향도 (Impact) 분리: 중간 노드에는 가산점만 적용하고, 최종 목표 (Goal) 노드에서만 영향도 (C, I, A) 를 적용하여 전체 경로의 가산점과 목표의 심각도를 결합한 최종 CVSS 베이스 점수를 산출합니다.
위험 처리 (Risk Treatment):
- 구체적인 방어 조치 (예: MFA, 프롬프트 가드레일, RBAC 등) 를 CVSS 메트릭의 변환 (예: PR: L→H, AC: L→H) 으로 모델링합니다.
- 비용 모델 (1~4 등급) 을 도입하여 방어 조치의 비용 대비 위험 감소 효과 (Exploitability 감소량) 를 비교 분석합니다.

3. 주요 기여 (Key Contributions)

목표 지향적 시스템 모델링: LLM 기반 시스템의 이질적인 위협 (기존 사이버, 적대적 ML, 대화형) 을 통합하여 목표 (G1-G3) 에 도달하는 다단계 공격 경로를 명시적으로 모델링하는 방법론을 제시했습니다.
다단계 공격 경로의 가산점 점수화: CVSS v3.1 벡터를 ADT 리프 노드에 할당하고, 논리적 연산 (OR/AND/SAND) 을 통해 경로 수준의 가산점 점수를 도출하는 정량화 기법을 제안했습니다. 이는 기존에 분리되어 있던 위협들을 하나의 점수로 비교 가능하게 합니다.
비용 제약 하의 방어 포트폴리오 비교: 방어 조치를 CVSS 메트릭 변환으로 모델링하고, 비용 등급과 결합하여 어떤 방어 조합이 가장 효율적인지 (경로 가산점 감소 대비 비용) 체계적으로 비교하는 워크플로우를 제공합니다.

4. 결과 (Results)

의료 사례 연구 적용: G1(의료 절차 간섭), G2(EHR 유출), G3(서비스 중단) 에 대한 공격 경로를 모델링하고 CVSS 점수를 계산했습니다.
점수 분포: 많은 공격 경로가 초기 상태에서 CVSS 베이스 점수 약 7.5(높음) 로 수렴하는 것을 관찰했습니다. 이는 인터넷 접근성 (AV:N) 이 높고 복잡도 (AC:L) 가 낮기 때문이며, 절대 점수보다는 **방어 적용 전후의 점수 변화 ( $\Delta E$ )**와 공격 경로의 병목 지점 식별이 중요함을 시사합니다.
방어 시나리오 분석:
- 선결 조건 강화 (S2): 모든 선결 조건을 강화하면 경로 가산점이 크게 감소합니다 (예: 3.89 → 1.62).
- 실행 단계 강화 (S3): 선결 조건은 그대로 두되 실행 단계 (가드레일 등) 만 강화해도 점수 감소 효과가 있습니다 (예: 3.89 → 2.22).
- 한계점 식별: SAND 구조에서 $E_{path} = \min(E(P), E(V^*))$ 이므로, 한 단계가 충분히 강화되면 다른 단계에 대한 추가 방어는 체감 효과가 감소합니다. 이를 통해 방어 투자 우선순위를 명확히 할 수 있습니다.

5. 의의 및 의의 (Significance)

시스템 전체적 관점의 위험 평가: LLM 을 단일 모델이 아닌 시스템 구성 요소로 간주하고, 전통적인 사이버 위협과 AI 특화 위협을 통합하여 분석함으로써 실제 배포 환경에서의 위험을 더 정확하게 평가할 수 있습니다.
실용적인 의사결정 지원: 추상적인 AI 보안 우려를 CVSS 와 같은 기존 취약점 관리 관행과 연결하여, 보안 팀과 ML 엔지니어, 소프트웨어 엔지니어 간의 공통 언어를 제공합니다.
도메인 중립성: 의료 사례를 사용했지만, 이 프레임워크는 목표, 자산, 시스템 구성 요소를 교체함으로써 다른 LLM 기반 중요 시스템 (금융, 인프라 등) 에도 적용 가능합니다.
초기 개발 단계 지원: 배포 전 초기 단계에서도 부분적인 시스템 지식 하에 실행 가능한 공격 경로와 방어 전략을 도출할 수 있어, 보안 설계 (Shift-Left) 에 기여합니다.

이 논문은 LLM 기반 시스템의 복잡한 공격 표면을 체계적으로 매핑하고, 정량적인 점수를 통해 방어 조치의 우선순위를 결정할 수 있는 실용적인 프레임워크를 제공한다는 점에서 의의가 큽니다.

Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment

🏥 핵심 비유: "AI 병원과 해커의 침투 작전"

1. 문제: "AI 는 혼자서 일하지 않아요" (시스템의 복잡성)

2. 해결책: "공격 지도 그리기 (Attack-Defense Trees)"

3. 점수 매기기: "위험도 점수판 (CVSS)"

4. 방어 전략: "가장 효율적인 비용으로 막기"

💡 이 연구가 우리에게 주는 교훈

📝 결론

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 의의 (Significance)

유사한 논문

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities