Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection

Each language version is independently generated for its own context, not a direct translation.

🚨 문제: "변장하는 AI 해커"의 등장

과거의 해킹 프로그램은 마치 가짜 지문을 남기는 도둑 같았습니다. 보안 프로그램은 그 지문 (시그니처) 을 미리 알고 있으면 "아, 이 도둑이네!" 하고 잡아챘습니다.

하지만 요즘 해커들은 **최신 AI(거대 언어 모델)**를 이용해 악성코드를 만듭니다.

변장 능력: 같은 해킹 행위를 하더라도, AI 는 매번 옷차림 (코드) 을 완전히 다르게 바꿔줍니다. (예: 오늘엔 검은 정장, 내일은 빨간 티셔츠) 그래서 기존 보안 프로그램은 "이건 처음 보는 사람이야"라고 착각하고 놓쳐버립니다.
은밀한 행동: 해킹을 하려고 해도, "내가 지금 샌드박스 (실험실) 안에 있나?" 확인하고, "디버거 (감시자) 가 있나?" 확인한 뒤에야 진짜 해킹을 시작합니다.

이처럼 지능적이고 변덕스러운 AI 해커를 잡기 위해 기존 방법으로는 부족했습니다.

🛡️ 해결책: CogniCrypt(코니크립트) 의 등장

이 논문이 제안한 CogniCrypt은 두 가지 강력한 힘을 합친 하이브리드 탐정입니다.

1. 탐정 A: "무한한 시뮬레이터" (Concolic Execution)

이 탐정은 프로그램이 실행될 때 **"만약 A 가 참이면? 만약 B 가 거짓이면?"**이라는 가정을 무수히 많이 해보며 모든 가능한 길을 탐색합니다.

비유: 마치 미로에 들어간 탐정처럼, 모든 복도를 다 돌아다니며 숨겨진 함정을 찾는 방식입니다.
단점: 미로가 너무 크면 (프로그램이 복잡하면) 모든 길을 다 돌아다니는 데 시간이 너무 오래 걸려서 (전체 경로 폭발 문제), 해커가 도망가기 전에 탐정이 지쳐버립니다.

2. 탐정 B: "천재 코딩 전문가 AI" (LLM)

이 탐정은 수백만 개의 코드를 읽은 거대 AI입니다. 이 AI 는 "이런 코드를 보면 해킹일 확률이 높아"라는 직관을 가지고 있습니다.

비유: 미로에서 "저쪽 복도는 냄새가 이상해, 해커가 있을 것 같아"라고 가리켜주는 가이드 역할입니다.

🌟 시너지 효과: "천재 가이드가 이끄는 무한 시뮬레이터"

CogniCrypt 는 **탐정 A(시뮬레이터)**가 모든 길을 다 돌아다니는 대신, **탐정 B(AI 가이드)**가 "가장 해커일 것 같은 길"을 먼저 가보라고 지시합니다.

결과: 불필요한 길을 73% 이상 줄이면서도, 해커가 숨어있는 길은 100% 찾아냅니다.

🧩 CogniCrypt 가 어떻게 작동하나요? (3 단계 프로세스)

지능적 길 찾기 (LLM-Guided Exploration):
- 프로그램이 실행될 때, AI 가이드가 "이 코드는 위험해 보여, 이쪽으로 먼저 가보자"라고 말합니다.
- 기존 방식은 무작위로 길을 찾았지만, CogniCrypt 는 AI 의 직관을 따라 가장 유력한 용의자가 있는 곳으로 바로 달려갑니다.
심층 분석 (Transformer Classifier):
- AI 가이드가 지시한 길에서 실제로 해킹 행위가 일어나는지 확인합니다.
- 이때 또 다른 AI(딥러닝) 가 "이 행동 패턴은 악성코드일 확률이 98% 입니다"라고 판단합니다.
학습과 성장 (Reinforcement Learning):
- 만약 탐정이 해커를 놓쳤다면, AI 가이드에게 "아까 그 길은 위험하지 않았어, 다음엔 다른 길을 봐"라고 피드백을 줍니다.
- 이 과정을 반복하며 AI 가이드는 점점 더 똑똑해져서, 다음엔 해커를 더 빠르게 찾아냅니다.

📊 실험 결과: 얼마나 잘 잡나요?

연구진은 기존 보안 프로그램 (ClamAV, YARA 등) 과 비교 실험을 했습니다.

일반 해커 (기존 악성코드): 기존 프로그램도 잘 잡지만, CogniCrypt 가 **98.7%**로 더 잘 잡았습니다.
AI 해커 (새로운 위협): 여기서 차이가 극명하게 나타났습니다.
- 기존 프로그램: 45%~72% (대부분 놓침)
- CogniCrypt: 97.5% (거의 다 잡음)
- 결론: AI 가 만든 변장한 해커를 잡는 데는 기존 방식으로는 역부족이지만, CogniCrypt 는 압도적인 성능을 보여줍니다.

💡 핵심 요약 (한 줄 정리)

"AI 가 만들어낸 변장한 해커를 잡기 위해, '무한한 시뮬레이터'와 '천재 AI 가이드'를 팀으로 묶어, 해커가 숨어있는 가장 위험한 길만 골라 빠르게 찾아내는 새로운 보안 시스템입니다."

이 시스템은 앞으로 AI 가 해킹에 더 많이 쓰일 미래에, 우리가 안전할 수 있게 해주는 필수적인 기술이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 의 악용은 사이버 보안에 존재하지 않던 위협을 초래하고 있습니다.

AI 생성 멀웨어의 위협: 공격자가 LLM 을 활용하여 자동화된 멀웨어를 생성함으로써, 기존 시그니처 기반 및 휴리스틱 탐지 방식이 무력화되고 있습니다.
주요 특징:
- 다형성 (Polymorphism) 및 변형성 (Metamorphism): 동일한 기능적 행동을 가지지만 문법적 구조는 완전히 다른 변종들을 대량 생성하여 해시 및 패턴 매칭을 회피합니다.
- 맥락 인식 회피 (Context-aware Evasion): 특정 환경 (샌드박스, 디버거 유무 등) 에서만 악성 행동을 실행하는 트리거 조건을 내장합니다.
- 적응형 진화: 탐지 피드백을 분석하여 회피 전략을 지속적으로 개선합니다.
기존 기법의 한계: 심볼릭 실행 (Symbolic Execution) 은 이러한 복잡한 행동을 분석할 수 있는 잠재력이 있으나, 경로 폭발 (Path Explosion) 문제로 인해 실제 멀웨어 분석에 확장성이 부족합니다.

2. 제안 방법론: CogniCrypt (Methodology)

CogniCrypt 은 혼합 분석 프레임워크로, 심볼릭 실행의 엄밀함과 LLM 의 직관적 이해력을 결합하여 제로데이 AI 생성 멀웨어를 탐지합니다.

핵심 구성 요소

LLM 유도 심볼릭 실행 (LLM-Guided Concolic Execution):
- LLM 을 '지능형 경로 오라클 (Path Oracle)'로 활용합니다.
- LLM 은 방대한 코드 코퍼스를 학습했기 때문에, 악성 의도가 있을 가능성이 높은 실행 경로를 사전에 예측하여 심볼릭 엔진이 해당 경로를 우선적으로 탐색하도록 유도합니다.
- 이를 통해 불필요한 경로 탐색을 줄이고 악성 경로에 집중합니다.
변환기 기반 경로 제약 분류기 (Transformer-Based Path Constraint Classifier):
- 심볼릭 실행으로 생성된 경로 제약 (Path Constraints) 과 구체적인 실행 트레이스를 입력받아 악성 점수 (Maliciousness Score) 를 산출합니다.
- 심볼릭 특징, API 호출 시퀀스, 제어 흐름 그래프 (CFG) 특징 등을 결합하여 학습된 트랜스포머 아키텍처를 사용합니다.
강화 학습 기반 피드백 루프 (RL-Based Feedback Loop):
- 탐지 결과를 바탕으로 LLM 의 경로 우선순위 정책 (Prioritization Policy) 을 강화 학습 (PPO 알고리즘 사용) 을 통해 지속적으로 정제합니다.
- 탐지 성공 시 보상을, 오탐지 시 패널티를 주어 LLM 의 판단 능력을 진화시킵니다.

수학적 기반

형식적 정의: 프로그램 실행 트레이스 상의 악성 행동을 1 차 선형 시계 논리 (First-order Linear Temporal Logic, $L_{CogniCrypt}$ ) 로 정의합니다.
격자 이론 (Lattice Theory): 경로 제약 공간을 격자 (Lattice) 로 추상화하여 논리적 함의 관계를 정의합니다.
정리 (Theorems):
- 정합성 (Soundness): 탐지된 악성 코드는 실제 악성 실행 트레이스를 가짐 (오탐지 없음).
- 상대적 완전성 (Relative Completeness): 주어진 탐색 예산 내에서 악성 경로가 상위 순위로 선정된다면 탐지가 보장됨.

3. 주요 기여 (Key Contributions)

형식적 프레임워크: 악성 행동 명세를 위한 시계 논리와 경로 제약 공간의 격자 이론적 추상화를 제시하고, 알고리즘의 정합성과 완전성을 수학적으로 증명했습니다.
3 가지 혁신 알고리즘:
- LLM 유도 심볼릭 탐색 (Algorithm 1)
- 트랜스포머 기반 경로 제약 분류 (Algorithm 2)
- 강화 학습 기반 정책 정제 (Algorithm 3)
종합적 구현 및 재현성: angr, Z3, PyTorch, Hugging Face Transformers 등을 기반으로 한 전체 소스 코드 및 설정을 공개하여 재현성을 보장합니다.
광범위한 평가: 기존 멀웨어 벤치마크 (EMBER, Malimg, SOREL-20M) 와 새로운 AI-Gen-Malware 벤치마크 (2,500 개의 LLM 생성 샘플) 를 통한 검증.

4. 실험 결과 (Results)

CogniCrypt 은 기존 도구 (ClamAV, YARA, MalConv, EMBER-GBDT 등) 와 비교하여 압도적인 성능을 보였습니다.

전통적 멀웨어 탐지: 98.7% 정확도 달성.
AI 생성 멀웨어 탐지: 97.5% 정확도 달성.
- 기존 최상위 ML 기반 모델 (MalConv) 대비 25.1% 포인트 향상.
- 심볼릭 실행만 사용한 버전 (angr-only) 대비 19.3% 포인트 향상.
- 시그니처 기반 도구 (ClamAV, YARA) 는 AI 생성 멀웨어에서 45~60% 대의 낮은 성능을 보이며 완전히 무력화됨.
탐색 효율성:
- LLM 유도 탐색은 DFS(깊이 우선 탐색) 대비 평균 73.2% 적은 경로를 탐색하면서도 동일한 악성 경로 커버리지를 달성했습니다.
- 악성 코드 95% 커버리지를 위해 필요한 경로 수가 DFS 대비 1,860 개 (기존 6,950 개) 로 대폭 감소.
LLM 백엔드 비교: GPT-4 가 가장 높은 성능을 보였으나, LLaMA 3 70B 나 Mixtral 과 같은 오픈소스 모델도 비용 효율적으로 높은 성능을 발휘했습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: AI 생성 멀웨어라는 새로운 위협에 대응하기 위해, 심볼릭 실행의 엄밀함과 LLM 의 직관적 패턴 인식을 시너지 있게 결합한 최초의 프레임워크입니다.
확장성 해결: 심볼릭 실행의 고질적인 문제인 '경로 폭발'을 LLM 의 지능적 우선순위 지정으로 해결하여, 실제 환경에서의 적용 가능성을 입증했습니다.
미래 지향성: 이 연구는 AI 와 AI 의 대결 (AI vs AI) 시대에 대응하는 보안 기술의 새로운 방향성을 제시하며, 향후 안드로이드 APK, IoT 펌웨어 분석 및 연방 학습 (Federated Learning) 으로 확장 가능한 기반을 마련했습니다.

요약하자면, CogniCrypt 는 LLM 이 생성한 지능형 멀웨어를 탐지하기 위해 심볼릭 실행 엔진을 LLM 이 '가이드'하도록 하여, 기존 방식으로는 불가능했던 제로데이 위협을 높은 정확도로 탐지하고 분석하는 혁신적인 솔루션입니다.