Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 비유: "단발성 경보" vs "행동 패턴 감시관"

상상해 보세요. 회사에 AI 비서가 있습니다. 이 비서는 중요한 데이터나 자금을 다룰 수 있는 권한이 있죠.

1. 기존 방식 (Stateless Gate): "문지기"

기존의 보안 시스템은 매번 문을 두드릴 때마다 그 사람의 신분증만 확인합니다.

"이 사람, 직원이 맞아요? 네, 맞네요. 들어오세요."
"다음엔 뭐 하러 오셨나요? 파일 하나 복사할게요. 네, 권한 있네요. 복사하세요."
"다음엔 외부로 보내는 건데? 네, 권한 있네요. 보내세요."

문제점: 각 행동 하나하나를 보면 모두 합법적이고 정상적입니다. 하지만 이 행동들이 연속해서 일어나면, 사실은 회사 기밀을 하나씩 훔쳐가는 '지능적인 도둑'일 수 있습니다. 기존 시스템은 각 행동이 정상이라서, 전체적인 악의적인 흐름을 놓쳐버립니다.

2. 새로운 방식 (SRM - 세션 리스크 메모리): "행동 패턴 감시관"

이 논문에서 제안한 SRM은 단순한 문지기가 아니라, **비서의 전체적인 행동 흐름을 기록하는 '감시관'**입니다.

기억력: SRM은 "아까는 파일 하나만 복사했는데, 지금은 10 개를 복사하고, 다음엔 외부 서버로 보내려고 하네?"라고 과거의 행동을 기억합니다.
누적 위험도: 처음엔 의심할 게 없지만, 행동이 계속 이어지면서 "이건 너무 많아!"라고 위험 신호가 쌓입니다.
기준선 설정: 어떤 직원은 평소에도 많은 파일을 다루는 '보안 담당자'일 수 있습니다. SRM은 처음 3~4 번의 행동을 보고 "아, 이 사람은 평소에도 이렇게 많이 하네"라고 **기준선 **(Baseline)을 잡습니다. 그 후, 평소보다 훨씬 위험한 행동이 이어질 때만 경보를 울립니다.

🚀 SRM 이 어떻게 작동하나요? (3 단계 프로세스)

**기초 체력 측정 **(Warm-up)
- AI 가 일을 시작하자마자 바로 "위험하다!"라고 외치지 않습니다. 처음 몇 번의 행동 (보통 3 번) 을 지켜보며 "이 AI 는 평소엔 얼마나 활동적인가?"를 파악합니다.
- 비유: 새 직원이 입사하자마자 "너 도둑이야!"라고 하는 게 아니라, 첫 주 동안 일하는 모습을 보고 "아, 이 사람은 평소엔 이렇게 일하는구나"라고 파악하는 것과 같습니다.
**행동 흐름 추적 **(Trajectory Tracking)
- AI 가 행동을 할 때마다, "지금 하는 일이 평소와 얼마나 다른가?"를 계산합니다.
- 만약 평소엔 '문서 확인'만 하던 AI 가 갑자기 '데이터 압축' -> '외부 전송'을 시도하면, 위험 점수가 급격히 올라갑니다.
- 비유: 평소엔 조용히 책상에서 일하던 직원이 갑자기 가방을 싸서 회사 밖으로 뛰쳐나가는 모습을 보면, 문지기 (기존 시스템) 는 "가방은 합법적인 물건이니까 통과"라고 하지만, 감시관 (SRM) 은 "이건 평소 패턴과 너무 다르다!"라고 잡습니다.
**최종 결정 **(Risk Accumulation)
- 위험 점수가 일정 수준을 넘으면, AI 는 더 이상 일을 할 수 없게 막힙니다.
- 핵심: 이 시스템은 확률에 의존하지 않고, 수학적 계산으로만 작동하므로 매우 빠르고 정확합니다.

🏆 이 시스템이 가져온 성과

논문의 실험 결과, 이 새로운 시스템 (SRM) 을 도입한 결과 놀라운 변화가 있었습니다.

거짓 경보 0%: 기존 시스템은 "정상적인 업무"를 잘못해서 "위험한 행동"으로 오인하는 경우가 5% 있었습니다. (예: 보안 담당자가 평소 많은 파일을 다루는데, 이를 도둑으로 오인함). 하지만 SRM 은 거짓 경보를 완전히 없앴습니다.
완벽한 탐지: 진짜 해킹이나 데이터 유출 시도는 100% 모두 잡아냈습니다.
매우 빠른 속도: 이 모든 계산이 한 번의 행동마다 **0.25 초 **(250 마이크로초)도 걸리지 않아, AI 가 일하는 속도를 늦추지 않습니다.

💡 요약: 왜 이 논문이 중요한가요?

이 논문은 **"단순히 '지금 하는 일'만 보고 판단하는 게 아니라, '지금까지 한 일들의 흐름'을 봐야 진짜 안전하다"**는 것을 증명했습니다.

기존: "이 문이 열려도 되나요?" (한 번의 행동만 봄)
새로운 SRM: "이 사람이 문을 열어서, 창문을 열고, 그리고 밖으로 나가는 걸 보니, 이건 도둑질 계획이네?" (행동의 흐름을 봄)

이처럼 시간의 흐름을 고려한 보안은 AI 가 점점 더 복잡한 일을 하게 되는 미래에, AI 가 실수하거나 악용당하는 것을 막아주는 필수적인 기술이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

기존 기술의 한계: 최근의 결정론적 사전 실행 안전 게이트 (예: ILION 프레임워크) 는 개별 에이전트 행동이 할당된 역할과 호환되는지 평가하여 실행 전 차단합니다. 그러나 이러한 시스템은 상태 비저장 (Stateless) 방식이므로, 각 행동을 독립적으로만 평가합니다.
분산 공격의 위협: 공격자가 해로운 의도를 여러 단계로 분해하여 수행하는 경우 (예: 데이터 유출을 위해 내부 데이터 조회 → 로컬 백업 생성 → 외부 엔드포인트로 업로드), 각 단계는 개별적으로 합법적으로 보일 수 있습니다.
결과: 기존 게이트는 초기 단계의 공격을 탐지하지 못하다가, 마지막 단계에서야 탐지하거나 아예 놓치는 경우가 발생합니다. 즉, 개별 행동은 안전하지만 행동의 궤적 (Trajectory) 전체가 위험한 경우를 식별하지 못하는 구조적 맹점이 있습니다.

2. 방법론 (Methodology)

SRM 은 기존 게이트를 수정하지 않고, 동일한 시맨틱 신호를 처리하는 경량 결정론적 시간적 레이어로 작동합니다.

핵심 개념:
- 공간적 권한 일관성 (Spatial Authorization Consistency): 단일 행동과 역할의 호환성 (기존 게이트가 담당).
- 시간적 권한 일관성 (Temporal Authorization Consistency): 세션 전체의 행동 궤적의 일관성 (SRM 이 담당).
아키텍처 및 알고리즘:
1. 시맨틱 중심점 (Semantic Centroid): 세션 시작 시 초기화되며, 지수 이동 평균 (EMA) 을 통해 에이전트의 행동 궤적을 요약합니다.
2. 기저선 보정 (Baseline Subtraction): 세션의 초기 단계 (Warm-up, K=3 턴) 에서 해당 역할의 자연스러운 위험 수준을 추정하여 기저선 (Baseline) 을 설정합니다. 이후 위험 신호에서 이 기저선을 차감하여, 역할 특성으로 인한 오검출을 방지합니다.
3. 리스크 누적 (Risk Accumulation): 보정된 게이트 위험 신호와 행동의 편차 (Drift) 를 결합하여 세션 리스크 신호를 생성하고, 이를 EMA 를 통해 누적합니다.
4. 의사 결정: 누적된 세션 리스크가 임계값 ( $\tau$ ) 을 초과하면 세션 전체를 차단합니다. ("한 번 의심스러우면 항상 플래그" 정책).
특징:
- 확률적 추론이나 모델 학습이 필요 없음.
- 기존 게이트와 동일한 시맨틱 벡터 표현 사용.
- 지연 시간 (Latency) 이 1ms 미만으로 유지됨.

3. 주요 기여 (Key Contributions)

SRM 메커니즘 도입: 학습이나 확률적 요소 없이 에이전트 시스템을 위한 결정론적 시간적 권한 부여 메커니즘을 제안.
수학적 정립: 기저선 보정된 게이트 신호와 지수 평활화를 이용한 세션 수준의 시맨틱 드리프트 누적 수식화.
모듈성: 기존 결정론적 실행 게이트 아키텍처와 호환되며, 선택적으로 활성화 가능한 레이어로 구현.
실증적 평가: 80 세션의 멀티턴 벤치마크를 통해 F1 점수 향상, 오검출 (False Positive) 제거, 분산 공격 탐지 능력 입증.
개념적 프레임워크: 안전성을 '공간적 일관성'과 '시간적 일관성'이라는 직교하는 두 차원으로 분해하여 에이전트 시스템의 세션 수준 안전에 대한 원칙적 기반 마련.

4. 실험 결과 (Results)

벤치마크: ILION-SRM-Bench v1 (80 세션: 40 건 정상, 40 건 공격). 공격 유형은 느린 데이터 유출 (Slow Exfiltration), 점진적 권한 상승 (Privilege Escalation), 규정 준수 이탈 (Compliance Drift) 입니다.

지표	Stateless ILION (기존)	ILION + SRM (제안)
탐지율 (Recall)	100%	100%
오검출률 (FPR)	5%	0%
정밀도 (Precision)	0.9524	1.0000
F1 점수	0.9756	1.0000
평균 탐지 턴	4.05	4.45
지연 시간 오버헤드	-	< 250 마이크로초

주요 발견: SRM 은 기존 ILION 의 5% 오검출을 완전히 제거하여 F1 점수를 1.0 으로 달성했습니다.
탐지 타이밍: SRM 은 보수적인 누적 설계로 인해 평균 탐지 턴이 약간 늦어질 수 있으나, 개별 행동이 임계값을 넘지 않는 '느린 태우기 (Slow-burn)' 공격 패턴에서는 세션 리스크 누적을 통해 탐지합니다.
성능: 250 마이크로초 미만의 오버헤드로 실시간 사전 실행 평가 요구사항을 충족합니다.

5. 의의 및 중요성 (Significance)

다단계 공격 대응: 개별 행동은 안전해 보이지만 전체 흐름이 악의적인 '분산 공격'을 탐지할 수 있는 첫 번째 결정론적 솔루션을 제공합니다.
오검출 제거: 역할별 자연스러운 행동 패턴 (예: 보안 분석가의 데이터 접근) 을 기저선 보정을 통해 학습 없이 제거함으로써, 안전 시스템의 실용성을 극대화했습니다.
실무 적용 가능성: 학습 데이터나 모델 수정 없이 기존 시스템에 추가 레이어로 쉽게 배포 가능하며, 지연 시간을 거의 증가시키지 않습니다.
안전 패러다임의 확장: 에이전트 안전을 '단일 행동'의 차원을 넘어 '행동 궤적'의 차원으로 확장하여, 복잡한 기업 환경에서의 에이전트 배포에 필수적인 안전 장치를 제시합니다.

결론적으로, SRM 은 결정론적 안전 검증의 범위를 고립된 행동 분석에서 궤적 인식 권한 부여로 확장함으로써, 확률적 의존성이나 추가 학습 없이도 에이전트 시스템의 안전성을 획기적으로 향상시킵니다.

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

🕵️‍♂️ 핵심 비유: "단발성 경보" vs "행동 패턴 감시관"

1. 기존 방식 (Stateless Gate): "문지기"

2. 새로운 방식 (SRM - 세션 리스크 메모리): "행동 패턴 감시관"

🚀 SRM 이 어떻게 작동하나요? (3 단계 프로세스)

🏆 이 시스템이 가져온 성과

💡 요약: 왜 이 논문이 중요한가요?

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 중요성 (Significance)

유사한 논문

Memory Bear AI Memory Science Engine for Multimodal Affective Intelligence: A Technical Report

The Efficiency Attenuation Phenomenon: A Computational Challenge to the Language of Thought Hypothesis

Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations

Intelligence Inertia: Physical Principles and Applications

STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems