DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: 왜 새로운 수사관이 필요한가요?

기존의 보안 시스템은 마치 **"악명 높은 범죄자 명단 (시그니처)"**을 들고 다니는 경찰관과 같습니다.

장점: 명단에 있는 범죄자는 바로 잡습니다.
단점: 명단에 없는 새로운 범죄자 (새로운 해킹 기법) 가 나타나면 잡지 못합니다. 또한, 모든 범죄자를 잡으려면 미리 "이건 범죄야"라고 표시된 데이터 (라벨링) 가 엄청나게 많이 필요합니다. 하지만 인터넷 데이터는 너무 방대해서 일일이 표시하기 어렵습니다.

🧠 2. 해결책: DNS-GT 는 어떤 수사관인가요?

이 논문이 제안한 DNS-GT는 단순히 명단을 외우는 것이 아니라, **"사람들의 행동 패턴을 관찰하는 천재 탐정"**입니다.

DNS 데이터란? 인터넷을 쓸 때 우리가 입력한 주소 (예: google.com, facebook.com) 가 기록된 로그입니다. 이는 마치 도서관에서 사람들이 어떤 책을 빌려가는지 기록한 '대출 내역서'와 같습니다.
핵심 아이디어: 악성 사이트는 보통 혼자서 이상한 행동을 하지 않습니다. 다른 악성 사이트들과 함께 움직이거나, 특정 패턴으로 연결됩니다. DNS-GT 는 이 연결고리와 맥락을 파악합니다.

🏗️ 3. 모델의 작동 원리 (창의적인 비유)

이 모델은 두 가지 강력한 기술을 섞어서 만듭니다.

① Transformer (거대한 언어 모델)

비유: 완벽한 언어학자입니다.
역할: 사람이 문장을 읽을 때, 앞뒤 문맥을 보고 단어를 추측하듯, DNS-GT 는 "이 사용자가 방금 구글을 검색했으니, 다음엔 유튜브를 검색할 확률이 높다"는 식으로 문맥을 이해합니다.
학습 방법: 책의 일부 단어를 가리고 (마스킹), 나머지 문맥을 보고 가려진 단어를 맞추는 게임을 수백만 번 반복하며 스스로 학습합니다. (지도 없이 스스로 배우는 '자기지도 학습' 방식)

② Graph Neural Network (그래프 신경망)

비유: 관계망 분석가입니다.
역할: 단순히 문장만 보는 게 아니라, "이 주소와 저 주소는 서로 친구 관계인가?"를 분석합니다.
특징: DNS-GT 는 주소들 사이의 관계를 '그래프 (연결도)'로 만들어, 서로 관련 없는 주소는 무시하고, 진짜 중요한 연결고리만 집중해서 봅니다. 마치 수사관이 용의자들의 전화 기록을 분석해 '누가 누구와 자주 통화했는지'를 파악하는 것과 같습니다.

🚀 4. 이 모델의 두 가지 단계

예비 훈련 (Pre-training):
- 막대한 양의 라벨이 없는 DNS 데이터 (누가 악성인지 모르는 데이터) 를 먹여 학습시킵니다.
- 이 단계에서 모델은 "인터넷 사용자의 일반적인 행동 패턴"을 익힙니다. 마치 신입 수사관이 수천 편의 사건 기록을 읽으며 '일반적인 시민의 행동'을 익히는 것과 같습니다.
세부 훈련 (Fine-tuning):
- 이제少量的인 '악성 사이트' 데이터만 보여주면, 모델은 금방 "아, 이 패턴은 악성 사이트가 하는 짓이구나!"라고 깨닫습니다.
- 기존 방식보다 훨씬 적은 데이터로도 높은 정확도를 냅니다.

📊 5. 실험 결과: 얼마나 잘 하나요?

연구진은 실제 대학 캠퍼스의 DNS 데이터 (수백만 건) 로 실험했습니다.

도메인 분류: "이 사이트가 악성인가?"를 판단하는 데, 기존 방식 (Word2Vec 등) 보다 훨씬 높은 정확도를 보였습니다.
봇넷 (해킹 당한 컴퓨터 군집) 탐지: 해커가 조종하는 컴퓨터들의 움직임을 찾아내는 데도 매우 효과적이었습니다.
맥락 이해의 힘: 같은 사이트라도, 어떤 다른 사이트들과 함께 접속되었는지에 따라 판단이 달라집니다.
- 예시: mozilla.net 은 보통 안전한 사이트입니다. 하지만 만약 이 사이트가 '광고 추적'이나 '악성 코드' 사이트들과 함께 접속된다면, DNS-GT 는 "아, 이건 정상적인 사용이 아니라 위장한 악성 활동일 수 있다"고 의심합니다.

💡 6. 결론: 왜 이것이 중요한가요?

기존의 보안 시스템은 **"이미 알려진 나쁜 놈"**만 잡을 수 있었습니다. 하지만 DNS-GT는 **"행동 패턴과 맥락"**을 분석하기 때문에, 아직 알려지지 않은 새로운 해킹 기법도 찾아낼 수 있습니다.

마치 새로운 범죄 수법을 미리 예측할 수 있는 예지력 있는 탐정이 등장한 것과 같습니다. 이 기술은 앞으로 더 큰 규모의 인터넷 데이터를 분석하여, 우리가 안전하게 인터넷을 사용할 수 있도록 돕는 '기초 모델'이 될 것입니다.

한 줄 요약:

DNS-GT는 인터넷 주소 기록을 읽으며 '문맥'과 '관계'를 파악하는 천재 탐정으로, 알려진 나쁜 사이트뿐만 아니라 새로운 형태의 해킹도 찾아냅니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존 NIDS 의 한계: 네트워크 침입 탐지 시스템 (NIDS) 은 일반적으로 시그니처 기반 탐지와 머신러닝 기반 이상 탐지를 결합합니다. 그러나 기존 머신러닝 방법은 레이블이 지정된 데이터에 대한 과도한 의존성, 일반화 능력 부족, 그리고 복잡한 패턴 학습의 어려움 등의 단점이 있습니다.
DNS 트래픽 분석의 과제: DNS 트래픽은 방대하고 접근성이 높아 이상 탐지에 유용한 소스이지만, 기존 딥러닝 기반 임베딩 방법 (예: Word2Vec) 은 도메인 이름 간의 **맥락적 정보 (Contextual Information)**를 충분히 고려하지 못합니다. Word2Vec 은 국소적인 공발생 (co-occurrence) 패턴만 학습하여 심층적인 의미와 의존성을 파악하는 데 한계가 있습니다.
데이터 부족: 사이버 보안 분야는 개인정보 보호 문제로 인해 대규모 레이블이 지정된 데이터셋을 구하기 어렵습니다.

2. 제안 방법론: DNS-GT (Methodology)

저자들은 DNS 쿼리 시퀀스에서 도메인 이름 임베딩을 학습하기 위해 그래프 기반 트랜스포머 (Graph-based Transformer) 모델인 DNS-GT를 제안합니다.

2.1 핵심 아키텍처

자기지도 학습 (Self-Supervised Pre-training): 레이블이 없는 DNS 트래픽을 사용하여 마스크 언어 모델링 (Masked Language Modeling, MLM) 태스크로 모델을 사전 학습합니다. 입력 시퀀스 내의 일부 도메인을 마스킹하고, 주변 쿼리의 맥락을 통해 원래 도메인을 복원하도록 학습합니다.
그래프 어텐션 네트워크 (GAT) 통합: 기존 트랜스포머의 자기 어텐션 (Self-Attention) 을 **멀티헤드 그래프 어텐션 (Multi-head Graph Attention)**으로 대체했습니다.
- 그래프 토폴로지: 쿼리 간의 관계를 정의하는 인접 행렬 (Adjacency Matrix) 을 사용하여, 특정 쿼리가 다른 관련 쿼리 (노드) 에만 주의를 기울이도록 제한합니다. 이는 시간적 지연이나 네트워크 버스트로 인한 순서 왜곡에 강건하게 만듭니다.
- 순열 불변성 (Permutation-equivariance): 입력 시퀀스의 순서가 바뀌어도 동일한 표현을 학습할 수 있어, 네트워크 타이밍의 작은 변동에 영향을 받지 않습니다.
이중 표현 (Dual Representation): 호스트 (Host) 와 도메인 (Domain) 을 별도의 임베딩으로 학습한 후, 가중치 ( $\omega$ ) 를 통해 결합합니다. 이를 통해 프라이버시 보호를 위해 호스트 정보를 배제할 수도 있습니다.

2.2 데이터 전처리 및 시퀀싱

호스트 기반 그룹화: 동일한 호스트에서 발생한 DNS 쿼리들을 시간 순서대로 그룹화하여 시퀀스를 구성합니다. 이는 NLP 의 문장 단위 학습과 유사하게, 동일한 사용자/호스트의 맥락을 유지합니다.
시퀀싱 전략:
1. 고정 길이 (Fixed-length): 윈도우 슬라이딩 방식.
2. 탐욕적 시간 기반 (Greedy time-based): 시간 간격 ( $\Delta_{intra}$ ) 이 짧은 쿼리들을 묶음.
3. 클러스터링 시간 기반 (Clustering time-based): DBScan 알고리즘을 사용하여 시간적으로 밀집된 쿼리 군집을 생성 (가장 강력하고 이상치에 강건함).

2.3 파인튜닝 (Fine-tuning)

사전 학습된 모델을 특정 다운스트림 태스크 (도메인 분류, 봇넷 탐지 등) 에 맞게 레이블이 지정된 데이터로 미세 조정합니다.

3. 주요 기여 (Key Contributions)

DNS-GT 모델 개발: 그래프 신경망 (GNN) 과 트랜스포머를 통합하여 DNS 쿼리 시퀀스의 맥락적 의존성을 효과적으로 학습하는 새로운 아키텍처를 제안했습니다.
실제 데이터 기반 광범위한 실험: 4,000 개 이상의 호스트에서 수집된 127 백만 건 이상의 실제 DNS 트래픽을 사용하여 정성적, 정량적 평가를 수행했습니다.
범용성 입증: 사전 학습된 임베딩이 도메인 분류 (악성 도메인 탐지) 와 봇넷 탐지라는 서로 다른 다운스트림 태스크에서 모두 효과적으로 작동함을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: TI-2016 데이터셋 (캠퍼스 네트워크 10 일치 트래픽, 약 296 백만 패킷).
비교 대상: Word2Vec (CBOW, Skip-Gram) 및 다양한 외부 분류기 (SVM, GNB 등) 와의 비교.
주요 성과:
- 도메인 분류 (Domain Classification): DNS-GT 는 모든 시퀀싱 전략 (Fixed, Time, Density) 에서 Word2Vec 기반 모델보다 우수한 성능을 보였습니다. 특히 Density(클러스터링) 전략에서 ROC AUC 0.848, F1-Score 0.654를 기록하여 기존 베이스라인을 크게 상회했습니다.
- 봇넷 탐지 (Botnet Detection): DNS-GT 는 Word2Vec-SkipGram 과 동등한 정확도 (Accuracy 0.877, AUC 0.970) 를 달성하면서도, 도메인 분류 태스크에서는 훨씬 더 뛰어난 성능을 보여주었습니다.
- 어블레이션 연구 (Ablation Study): 어텐션 메커니즘을 제거할 경우 AUC 가 0.438 로 급격히 하락하여, 맥락 학습의 중요성을 입증했습니다. 호스트 정보 제거 시에도 성능이 저하되었으나 어텐션만큼은 아니었습니다.
- 맥락 민감성: 동일한 도메인이라도 주변 쿼리 (맥락) 에 따라 악성/정상 판정 점수가 크게 변하는 것을 확인했습니다 (예: 정상 도메인이 악성 도메인들과 함께 나타날 때 악성으로 분류됨).

5. 의의 및 결론 (Significance)

레이블 없는 데이터 활용: 대규모 레이블 데이터 없이도 DNS 트래픽의 "문법"을 학습하여 효과적인 임베딩을 생성할 수 있음을 보여주었습니다.
맥락 기반 탐지의 중요성: 개별 도메인의 특성뿐만 아니라, 도메인이 어떤 시퀀스 (맥락) 에서 나타나는지에 따라 위협을 판단할 수 있음을 입증했습니다. 이는 피싱, 봇넷, DNS 터널링 등 다양한 공격 유형 탐지에 필수적입니다.
미래 방향: DNS-GT 는 사이버 보안 분야를 위한 **기초 모델 (Foundation Model)**로서의 가능성을 제시하며, 대규모 언어 모델 (LLM) 기술을 네트워크 침입 탐지 시스템 (NIDS) 에 적용하는 새로운 길을 열었습니다.

요약하자면, DNS-GT 는 DNS 쿼리의 복잡한 맥락과 구조적 관계를 그래프 어텐션을 통해 학습하여, 기존 방법론보다 훨씬 정교하고 일반화 가능한 사이버 위협 탐지 능력을 제공합니다.