Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "왜 기존 방식은 실패했을까?" (비유: 우편물 분류기)

인터넷 트래픽은 마치 봉인된 우편물과 같습니다. 내용물 (데이터) 은 암호화되어 있어 누가 봐도 알 수 없지만, 우편물 겉봉 (헤더) 에는 보내는 사람, 받는 사람, 무게, 도착 시간 같은 정보가 적혀 있습니다.

기존의 인공지능 (AI) 모델들은 이 우편물을 분류할 때, 겉봉을 뜯어내서 종이를 잘게 찢은 뒤, 그 조각들을 무작위로 섞어서 "이게 무슨 우편물일까?"라고 추측하는 방식을 썼습니다.

기존 방식의 실수:
1. 무의미한 것까지 외우려 함: 우편물 겉봉에 적힌 '우편번호'나 '인쇄 번호'는 매번 바뀌는 무작위 숫자입니다. AI 는 이걸 외우려고 애쓰다가 지쳐버립니다. (논리적으로 배울 수 없는 것을 배우려다 보니 학습이 엉망이 됩니다.)
2. 혼란스러운 분류: "무게 1kg"이라는 정보와 "날짜 1 월 1 일"이라는 정보를 같은 방식으로 처리하다 보니, AI 가 "무게가 1kg 인 날씨가 1 월 1 일인가?"라고 착각하게 됩니다. (의미가 다른 것들을 섞어놓은 겁니다.)
3. 중요한 맥락 놓침: 우편물이 언제 도착했는지, 몇 분 간격으로 왔는지 같은 '시간적 흐름' 정보는 아예 버려버렸습니다.

결국 AI 는 무작위 숫자와 혼란스러운 정보만 보고 학습해서, 실제 중요한 패턴을 찾아내지 못했습니다.

💡 해결책: "원래의 구조를 존중하라" (비유: 우편물 분류대)

이 논문은 **"우편물을 찢지 말고, 원래의 구조 (테이블) 를 그대로 유지해서 분류하자"**고 제안합니다.

저희가 제안한 FlowSem-MAE라는 새로운 AI 는 다음과 같이 작동합니다.

1. 🚫 "배울 수 없는 것은 배울 필요 없다" (예측 불가능한 필드 필터링)

우편물 겉봉에 적힌 '무작위 번호'나 '체크섬' 같은 건 AI 가 외울 필요가 없습니다. 마치 주사위를 던져서 나오는 숫자를 외울 필요가 없는 것처럼요. 이 연구는 AI 가 **의미 있는 정보 (보내는 사람, 받는 사람, 패킷 크기 등)**에만 집중하도록, 쓸모없는 정보는 아예 학습 대상에서 제외시킵니다.

2. 🏷️ "각자만의 전용 분류함" (FSU 특화 임베딩)

기존 방식은 모든 정보를 하나의 큰 통에 넣으려 했지만, 이 방식은 각 정보마다 전용 분류함을 만듭니다.

"무게"는 무게 전용 상자에, "날짜"는 날짜 전용 상자에 넣습니다.
이렇게 하면 AI 가 "무게 1kg"과 "날짜 1 월 1 일"을 혼동하지 않고, 각각의 고유한 의미를 정확히 파악할 수 있습니다.

3. ⏱️ "시간의 흐름까지 읽는다" (이중 축 주의)

우편물이 어떤 순서로, 얼마나 빠른 간격으로 도착했는지는 매우 중요합니다. 이 AI 는 우편물 하나하나의 내용뿐만 아니라, **시간의 흐름 (패킷이 도착한 순서와 간격)**까지 함께 분석합니다. 마치 우편배달부가 "아, 이 사람은 아침마다 우편물이 오고, 오후에는 안 오네"라고 패턴을 파악하는 것과 같습니다.

🏆 결과: "작은 뇌로도 더 똑똑하게"

이 새로운 방식 (FlowSem-MAE) 은 놀라운 성과를 거두었습니다.

데이터가 적어도 잘합니다: 기존 방식은 모든 데이터를 다 써야 했지만, 이 방식은 학습용 데이터의 절반만 있어도 기존 방식보다 더 잘 분류합니다.
모델이 작아도 강력합니다: 거대한 AI 모델 (수십 억 개의 파라미터) 을 쓸 필요 없이, 훨씬 작은 모델로도 최고의 성능을 냅니다. 이는 "무조건 큰 모델을 쓰는 것보다, 데이터의 본질을 이해하는 방식이 더 중요하다"는 것을 증명합니다.
실제 적용 가능: 암호화된 트래픽을 분류할 때, 단순히 "무작위 숫자"를 외우는 게 아니라, 프로토콜이 가진 진짜 의미를 이해하게 되어, 새로운 상황에서도 잘 적응합니다.

📝 한 줄 요약

"암호화된 인터넷 트래픽을 분류할 때, 우편물을 찢어서 무작위로 섞는 대신, 원래의 구조와 시간 흐름을 그대로 존중하는 '똑똑한 분류대'를 만들었더니, 적은 데이터로도 훨씬 더 정확하게 분류할 수 있게 되었습니다."

이 연구는 인공지능이 단순히 데이터를 많이 먹이는 것보다, 데이터가 가진 본래의 의미와 구조를 이해하는 것이 얼마나 중요한지 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

암호화 트래픽 분류 (ETC) 의 한계와 기존 방법의 실패 원인

배경: 인터넷 트래픽의 95% 이상이 암호화됨에 따라, 페이로드 기반 검사 (DPI) 는 무용지물이 되었고, 암호화된 헤더와 메타데이터를 활용한 분류가 필수적입니다.
기존 접근법의 문제: 최근 자기지도학습 (Self-supervised learning) 기반의 마스크 모델링 (Masked Modeling) 기법들이 트래픽을 단순한 '바이트 시퀀스'로 취급하여 학습하고 있습니다.
핵심 문제점 (유도 편향 불일치, Inductive Bias Mismatch):
- 기존 방법들은 바이트 단위로 데이터를 평탄화 (Flattening) 하여 시퀀스 모델 (BERT 등) 에 입력합니다. 이는 네트워크 프로토콜이 정의하는 구조적 의미 (Semantics) 를 파괴합니다.
- 전송 능력 부족: 기존 연구들은 전체 데이터를 파인튜닝 (Fine-tuning) 할 때는 높은 정확도를 보이지만, 인코더를 고정 (Frozen Encoder) 하고 평가할 때 정확도가 90% 이상에서 47% 미만으로 급락합니다. 이는 사전 학습이 실제 표현 (Representation) 학습에 기여하지 못했음을 의미합니다.
- 세 가지 근본적 결함:
  1. 필드 수준의 예측 불가능성 (P1): ip.id 나 checksum 과 같이 프로토콜 설계상 무작위성 (Randomness) 을 가진 필드들을 학습 대상으로 삼아 불필요한 그래디언트 노이즈를 생성합니다.
  2. 크로스 필드 임베딩 혼란 (P2): 의미적으로 완전히 다른 프로토콜 필드들 (예: Total Length 와 Window Size) 을 단일 임베딩 공간에 매핑하여 의미적 경계가 모호해집니다.
  3. 플로우 레벨 메타데이터 손실 (P3): 패킷 바이트 외부에 존재하는 중요한 시간적 메타데이터 (예: 패킷 도착 간격, frame.time_delta) 가 완전히 무시됩니다.

2. 제안 방법론 (Methodology)

저자들은 트래픽을 바이트 시퀀스가 아닌, 프로토콜이 정의한 표형 (Tabular) 데이터로 간주하는 '프로토콜 네이티브 (Protocol-Native)' 패러다임을 제안합니다. 이를 구현한 모델은 FlowSem-MAE입니다.

핵심 구성 요소

Flow Semantic Units (FSU) 추출:
- 원시 바이트 대신 RFC(프로토콜 명세) 에 정의된 필드 (IP, TCP 헤더 등) 와 프레임 메타데이터 (시간 정보) 를 구조화된 'FSU' 단위로 추출합니다.
- 각 패킷을 $N$ 개의 FSU 로 구성된 행렬 (Table) 로 표현합니다.
예측 가능성 기반 필터링 (Predictability-Guided Filtering):
- P1 해결: 프로토콜 상 예측 불가능한 필드 (랜덤 필드, 무결성 검사 필드) 와 데이터셋 특유의 필드 (IP 주소 등) 를 사전 학습 대상에서 제외합니다.
- 오직 프로토콜 규격에 따라 안정적이고 학습 가능한 패턴을 가진 'Generalizable FSU'만 마스크 및 재구성 대상으로 선정하여 노이즈를 제거합니다.
FSU 특화 임베딩 (FSU-Specific Embeddings):
- P2 해결: 모든 필드를 하나의 공유 임베딩 함수로 처리하는 대신, 각 FSU 타입마다 독립적인 임베딩 함수를 할당합니다.
- 이는 각 필드가 고유한 매니폴드 (Manifold) 구조를 가진다는 가정을 반영하여, 의미적으로 다른 필드들이 임베딩 공간에서 섞이는 것을 방지합니다.
이중 축 어텐션 (Dual-Axis Attention) Transformer:
- P3 해결: 트래픽 흐름의 2 차원 구조를 동시에 모델링합니다.
  - 시간 축 (Time-axis): 패킷 간의 시간적 의존성 (예: 요청 - 응답 지연, 버스트 패턴) 을 포착합니다.
  - FSU 축 (FSU-axis): 단일 패킷 내 다양한 필드 간의 의미적 관계를 포착합니다.
- 이를 통해 패킷 내부의 의미와 흐름 전체의 시간적 맥락을 모두 학습합니다.

3. 주요 기여 (Key Contributions)

유도 편향 불일치에 대한 분석: 기존 방법들의 낮은 전이 학습 (Transferability) 성능이 바이트 시퀀스 모델링의 근본적인 한계 (프로토콜 의미의 파괴) 에서 비롯됨을 규명했습니다.
프로토콜 네이티브 패러다임 제안: 트래픽을 시퀀스가 아닌 '표형 (Tabular) 데이터'로 재정의하고, 이를 반영한 FlowSem-MAE를 제안했습니다.
뛰어난 성능 및 효율성:
- Frozen Encoder 평가: 기존 최첨단 모델들보다 압도적으로 높은 성능을 기록하여, 사전 학습이 실제로 전이 가능한 표현을 학습했음을 증명했습니다.
- 레이블 효율성: 전체 데이터로 학습한 기존 방법들보다 50% 적은 레이블 데이터만으로도 동등하거나 더 나은 성능을 달성했습니다.
- 모델 효율성: 수십억 개의 파라미터를 가진 거대 모델들보다 훨씬 작은 모델 (약 50M 파라미터) 로 더 나은 성능을 달성했습니다.

4. 실험 결과 (Results)

데이터셋: ISCX-VPN (16 개 애플리케이션 클래스), TLS-120 (120 개 웹사이트 클래스, TLS 1.3 암호화).
Frozen Encoder 성능 (전이 학습 능력):
- FlowSem-MAE: ISCX-VPN 에서 정확도 51.1%, F1 42.7% / TLS-120 에서 정확도 55.2%, F1 51.3% 달성.
- 비교: 기존 최강 베이스라인 (TrafficFormer) 보다 ISCX-VPN 에서 정확도 11.9%p, F1 5.8%p 향상.
Full Fine-tuning 성능:
- Frozen 상태에서도 최강의 성능을 보였으며, 파인튜닝 시에도 83.8% (TLS-120) 의 높은 성능을 기록하여 두 평가 프로토콜 모두에서 최상위권을 유지했습니다.
모델 크기 대비 효율성:
- 28.5 억 파라미터 (netFound) 를 가진 모델이 22.9% 의 Frozen F1 을 기록한 반면, FlowSem-MAE 는 5025 만 파라미터로 51.3% 를 기록하여 모델 크기보다 구조적 정합성 (Structural Alignment) 이 중요함을 입증했습니다.
Ablation Study:
- 예측 가능성 필터링 제거 시 정확도 20~23% 하락.
- FSU 특화 임베딩 제거 시 성능 급감 (크로스 필드 혼란 발생).
- 시간적 메타데이터 제거 시 성능 저하 (패킷 간 패턴 학습 실패).

5. 의의 및 결론 (Significance)

이 논문은 암호화 트래픽 분류 분야에서 데이터의 본질적인 모달리티 (Tabular Structure) 를 존중하는 모델링이 단순한 모델 스케일링 (Brute-force scaling) 보다 훨씬 효과적임을 증명했습니다.

이론적 통찰: "무엇을 더 학습하는가 (Learning More)"가 아니라 "올바르게 학습하는가 (Learning Right)" 가 핵심임을 강조하며, 프로토콜 구조를 모델 아키텍처에 내재화 (Architectural Priors) 하는 접근법의 중요성을 제시했습니다.
실용적 가치: 레이블 데이터가 부족한 환경에서도 강력한 성능을 발휘하여, 실제 네트워크 보안 및 관리 시스템에 적용 가능한 효율적인 솔루션을 제공합니다.
향후 방향: 프로토콜 기반의 구조적 의미 정렬이 네트워크 트래픽 분석의 새로운 표준이 될 수 있음을 시사하며, 필드 분류 자동화 및 더 큰 규모의 사전 학습 데이터 활용을 통해 성능을 더욱 확장할 수 있음을 제시합니다.