A Hybrid Approach For Malware Classification Using Secondary Features Fusion — 쉬운 설명

원저자: Raja Khurram Shahzad, Muhammad Mustaqeem, Haroon Elahi

게시일 2026-06-03

📖 1 분 읽기☕ 가벼운 읽기

원저자: Raja Khurram Shahzad, Muhammad Mustaqeem, Haroon Elahi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 언어로는 아직 설명이 없습니다.

다른 언어： DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

기술 요약: 이차적 특징 융합을 이용한 악성코드 분류를 위한 하이브리드 접근 방식

문제 정의
다형성, 난독화, 제로 데이 변종으로 특징지어지는 악성코드의 급격한 진화는 전통적인 탐지 방법들을 불충분하게 만든다. 기존의 안티 멀웨어 소프트웨어는 종종 변형된 샘플을 탐지하거나 이를 특정 패밀리로 분류하는 데 실패하여 효과적인 대응을 저해한다. 머신러닝(ML)이 악성코드 탐지에 적용되어 왔으나, 서로 다른 패밀리 간의 특징 일반화, 데이터셋의 클래스 불균형, 그리고 정적 또는 동적 분석에만 의존하는 문제에 대한 과제가 남아 있다. 또한, 널리 사용되는 Microsoft Malware Classification Challenge 데이터셋은 양성(benign) 예시가 부족하여, 이진 탐지(양성 vs 악성)와 다중 클래스 패밀리 분류를 동시에 수행하는 데 활용도가 제한적이다.

방법론
저자들은 두 가지 별개의 단계인 특징 공학(feature engineering)과 모델링을 다루는 하이브리드 접근 방식을 제안한다. 본 방법론은 다음 단계들을 포함한다:

데이터셋 확장 및 준비:
- 본 연구는 기존 9개 패밀리의 10,868개 악성 샘플에 1,609개의 양성 디스어셈블리 파일(.asm)을 추가하여 Microsoft Kaggle 데이터셋을 수정하였다.
- 이러한 확장은 이진 분류(악성 vs 양성)와 다중 클래스 분류(특정 악성 패밀리)를 모두 가능하게 한다.
- 원본 데이터셋에 내재된 클래스 불균형 문제를 완화하기 위해 복원 추출을 포함한 층화 무작위 추출(Stratified random sampling)이 채택되었다.
특징 추출:
- 기본 특징(Primary Features): 시스템은 디스어셈블리된 파일의 .text 섹션으로부터 API 호출, DLL 임포트, 그리고 OpCode 머닉(mnemonic)을 추출한다.
- 이차적 특징(Secondary Features):
  - OpCodes: Unigram 형태로 추출되며, 사전 기반 선택(불규칙하거나 커스텀된 OpCode 제거)을 통해 필터링된 후, 고정 길이의 quad-gram 및 가변 길이의 n-gram으로 변환된다.
  - API 및 DLL: 결합 분석 결과, API와 DLL 특징의 경우 정확도와 계산 비용의 균형을 맞추는 최적의 크기는 bi-gram인 것으로 결정되었다.
- 노이즈 감소: 빈도 분석을 수행하여 발생 횟수가 낮은 특징(임계값 < 50)을 폐기함으로써, 대표성 있는 특징들만을 유지한다.
특징 선택:
- 2단계 선택 프로세스가 구현된다:
  - 1차 선택: 불규칙하고 희귀한 특징을 제거하기 위한 사전 기반 필터링 및 빈도 분석.
  - 2차 선택: 필터(Shannon Entropy), 래퍼(Proposed Backward Selection using Random Forest and Regularized Greedy Forest), 그리고 임베디드(Lasso, XGBoost) 방법의 평가.
- 제안된 커스텀 역방향 선택(backward selection) 알고리즘은 최소 특징 수에 도달할 때까지 중요도가 낮은 특징을 반복적으로 제거하여, 특정 알고리즘에 최적화된 특징 집합을 생성한다.
특징 융합(Feature Fusion):
- 단일 최적 특징 집합을 선택하는 대신, 저자들은 모든 표현(API bi-grams, DLL bi-grams, quad-grams, 가변 길이 grams)에서 추출한 최적의 특징들의 합집합을 취함으로써 특징 융합을 수행하고, 이를 통해 포괄적인 입력 행렬을 생성한다.
알고리즘 융합(앙상블):
- CART, Naive Bayes, SVM, Logistic Regression, kNN, Neural Networks, Random Forest, AdaBoost, XGBoost, LightGBM을 포함한 10개의 기본 분류기를 평가한다.
- 상위 5개 성능 분류기를 사용하는 가중치 투표 기반 앙상블을 구축한다.
- 각 분류기의 가중치는 테스트 세트에서의 로그 손실(log loss)을 최소화하기 위해 순차적 최소 제곱 프로그래밍(SLSQP)을 사용하여 결정된다.
- 최종 예측은 앙상블 구성원들의 가중 확률 출력값의 기하 평균을 계산하여 도출된다.

주요 기여

데이터셋 수정: 이진 분류 및 다중 클래스 분류 작업을 용이하게 하기 위해 Microsoft 데이터셋을 양성 샘플로 확장함.
특징 공학: API 호출, DLL 임포트, 그리고 OpCode n-gram(특히 quad-gram 및 가변 길이 gram)을 기본 및 이차적 특징으로 활용함.
커스텀 특징 선택: 역방향 선택 알고리즘을 제안하고, 가장 가치 있는 특징을 식별하기 위해 필터, 래퍼, 임베디드 방법을 결합한 하이브리드 접근 방식을 평가함.
이중 융합 전략: 탐지 견고성을 높이기 위해 특징 융합(다양한 특징 집합의 결합)과 알고리즘 융합(가중 투표 앙상블)을 모두 구현함.
포괄적 평가: 원본 Microsoft Kaggle 챌린지 우승자 및 기타 최근 연구들과의 상세한 비교를 제공함.

실험 결과
제안된 방법은 표준 하드웨어 설정(Intel i7-8700, 16GB RAM)에서 GPU 가속 없이 평가되었다.

성능 지표: 앙상블 모델은 **99.72%**의 정확도, 0.989의 AUC, 그리고 0.01의 로그 손실을 달려냈다.
최신 기술(State-of-the-Art)과의 비교:
- 원본 Microsoft Kaggle 경진대회 우승자(로그 손실 약 0.0023 달성)와 비교했을 때, 제안된 모델은 약간 더 높은 로그 손실(0.01)을 보였으나, 계산 자원 요구 사항은 현저히 낮았다(Google Compute Engine의 104GB 메모리 대비 표준 데스크톱 사용).
- 저자들은 우승 팀의 접근 방식이 암호화된 파일 특징에 크게 의존하며 경진대회에 특화된 하드코딩된 하이퍼파라미터를 사용했기 때문에, 잠재적으로 일반화 능력이 제한될 수 있다고 주장한다. 반면, 제안된 방식은 파일 기능으로 추적 가능한 특징(API, DLL, 가변 길이 n-gram)을 사용하여 더 잘 일반화된다.
- Ahmadi 등(2016)의 연구와 비교하여, 제안된 방법은 데이터셋 변화에 따라 크게 변하는 특징(예: 파일 크기에 의존적인 명령어 수)을 피하고 더 견고한 특징 선택 프로세스를 사용함으로써 더 나은 일반화 능력을 제공한다.

의의 및 주장
본 논문은 제안된 하이브리드 접근 방식이 악성코드 탐지 및 패밀리 분류를 효과적으로 자동화한다고 주장한다. 본 연구의 의의는 다음과 같다:

이차적 특징(n-gram)과 기본 특징(API/DLL)의 특징 융합이 단일 특징 유형을 사용하는 것보다 더 견고한 입력 행렬을 생성한다는 점을 입증했다.
가중 투표 앙상블을 통한 알고리즘 융합은 개별 기본 분류기보다 우수한 성능을 보이며, 자원이 제한된 환경에서도 높은 정확도를 달성한다.
제안된 방식은 대규모 계산 자원이나 경진대회 특화된 특징 공학(예: 암호화된 파일의 픽셀 강도)에 의존하지 않으므로, 실제 배포를 위한 일반화 가능성과 실용성을 갖추고 있다.
양성 파일의 포함은 완전한 보안 워크플로우를 가능하게 한다: 즉, 먼저 파일의 악성 여부를 판단한 후, 표적 대응을 위해 특정 패밀리를 식별하는 것이다.

저자들은 자신들의 로그 손실이 경진대회 우승자보다 약간 높을 수는 있으나, 그들의 방법이 악성코드 분류를 위해 더 지속 가능하고, 일반화 가능하며, 자원 효율적인 솔루션을 제공한다고 결론짓는다. 향후 연구에서는 16진수(hexadecimal) 데이터와 디스어셈블리 데이터 특징 간의 융합을 조사하고, 암호화된 샘플을 학습 세트에 포함할 계획이다.

공유Twitter LinkedIn Email

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →

매주 최고의 AI 논문을 받아보세요.

스탠포드, 케임브리지, 프랑스 과학 아카데미 연구자들이 신뢰합니다.

받은편지함에서 구독을 확인해주세요.

문제가 발생했습니다. 다시 시도하시겠어요?

스팸 없음, 언제든 구독 취소 가능.

유사한 논문

이 카테고리 전체 보기 🤖 cs.AI →

주간 다이제스트 — 가장 새로운 연구를 쉽게 설명.구독