Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Each language version is independently generated for its own context, not a direct translation.

🏛️ 비유: 거대한 도서관과 혼란스러운 책장

상상해 보세요. 한 회사가 수많은 외부 업체 (공급업체) 들과 일을 하려고 합니다. 이때 "당신은 정말 안전한가요?"라고 물어보기 위해 수천 개의 보안 질문지가 준비되어 있습니다.

하지만 이 질문지들은 정리되지 않은 거대한 도서관처럼 방치되어 있습니다.

어떤 책은 제목이 "비밀번호"라고 되어 있고, 어떤 책은 "접근 통제"라고 되어 있지만, 사실은 같은 내용을 묻고 있습니다.
또 어떤 책은 "데이터 백업"에 대해 묻는데, 다른 책은 "재해 복구"라고 되어 있어 같은 주제임에도 불구하고 서로 다른 책장에 놓여 있습니다.

이런 상태에서 새로운 업체를 평가할 때, 담당자는 "우리는 '데이터 백업'에 대해 물어보고 싶어"라고 말하며 수천 권의 책장 사이를 헤매며 관련 질문을 찾아야 합니다. 이 과정은 매우 비효율적이고, 사람이 일일이 찾아야 하므로 시간이 오래 걸립니다.

🚀 이 논문이 제안하는 해결책: "스마트 라벨링 시스템"

이 논문은 이 문제를 해결하기 위해 두 가지 핵심 전략을 제안합니다.

1. AI 가 먼저 "요약"을 해주는 것 (클러스터링)

기존 방식은 질문 하나하나를 AI 에게 보여주고 "이건 무슨 주제야?"라고 물어서 라벨 (태그) 을 붙였습니다. 하지만 질문이 수천 개라면 AI 에게 물어보는 비용과 시간이 천문학적으로 늘어납니다.

이 논문은 **"질문들을 먼저 묶어서 한 번에 처리하자"**고 제안합니다.

비유: 책장 전체를 훑어보며 비슷한 내용 (예: 모두 '백업' 관련) 인 책들을 한 묶음 (클러스터) 으로 묶습니다.
그리고 AI 에게는 수천 개의 책이 아니라, 묶음 단위로만 보여줍니다. "이 묶음의 책들은 모두 '백업'에 관한 것 같아. 이 묶음에 '백업'이라는 라벨을 붙여줘."라고 말합니다.
이렇게 하면 AI 에게 물어보는 횟수가 수천 번에서 수십 번으로 줄어듭니다.

2. 작은 샘플로 나머지를 복사하는 것 (k-NN 전파)

AI 가 묶음 단위로 라벨을 붙여주면, 이제 나머지 개별 질문들에 라벨을 붙일 차례입니다.

비유: 묶음에서 대표 책 한 권에 "백업"이라는 스티커를 붙였습니다. 이제 그 스티커를 붙인 책 옆에 있는 다른 책들은 **스스로 "아, 나도 같은 묶음이니까 나도 '백업' 스티커를 붙여야겠다"**라고 판단하게 합니다.
이 과정은 AI 에게 다시 물어볼 필요 없이, 컴퓨터가 자동으로 빠르게 처리합니다.

📊 실험 결과: 얼마나 효과적일까요?

연구팀은 이 방식을 테스트해 보았습니다.

비용 절감: AI 에게 물어보는 횟수가 크게 줄어들어 비용이 약 40% 감소하고, 처리 시간도 33% 단축되었습니다. (마치 수천 번의 질문을 한 번에 해결한 것과 같습니다.)
정확도: 단순히 글자만 비슷하다고 찾아주는 기존 방식보다, 의미 (라벨) 를 기준으로 찾아주는 방식이 훨씬 더 정확한 질문을 골라냈습니다.
- 예시: "비밀번호 관리"를 묻고 싶을 때, 단순히 '비밀번호'라는 단어가 들어간 질문만 찾는 게 아니라, '접근 통제'라는 라벨이 붙은 질문까지 정확하게 찾아냅니다.

💡 요약: 왜 이것이 중요한가요?

이 논문은 **"AI 를 무작정 많이 쓰지 않고, 똑똑하게 배치해서 효율을 극대화하자"**는 메시지를 전달합니다.

기존 방식: 질문 하나하나를 AI 에게 물어보느라 돈과 시간이 다 떨어진다.
이 논문의 방식: 비슷한 질문들을 먼저 묶어서 AI 에게 한 번에 물어보고, 그 결과를 나머지 질문들에게 자동으로 복사해 준다.

결국 기업들은 더 적은 비용과 시간으로, 더 정확한 보안 질문지를 공급업체에게 보낼 수 있게 되어, 사이버보안 위험 관리가 훨씬 수월해집니다.

한 줄 요약:

"수천 개의 보안 질문지를 AI 에게 일일이 물어보느라 지치는 대신, 비슷한 질문들을 묶어서 AI 가 '요약본'을 만들고, 그 요약본을 바탕으로 나머지를 자동으로 분류하는 스마트하고 저렴한 시스템을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 조직은 ISO/IEC 27001, NIST 등의 표준에 기반한 제 3 자 위험 평가 (TPRA) 를 수행하며, 이를 위해 방대한 보안 및 규정 준수 질문지 (Questionnaire) 리포지토리를 활용합니다.
현황의 한계:
- 현재 질문지 선별은 대부분 수동으로 이루어지며, 이는 시간 소모적이고 확장성이 낮습니다.
- 자동화 접근 방식은 주로 키워드 매칭이나 문장 임베딩 기반의 표면적 유사도 (Surface-level similarity) 에 의존합니다.
- 핵심 문제: 이러한 유사도 기반 검색은 질문의 의도 (Assessment Scope) 나 통제 도메인 (Control Domain, 예: 접근 제어, 사고 대응) 을 명시적으로 이해하지 못합니다. 결과적으로 평가 목적과 맞지 않는 너무 일반적인 질문들이 검색되거나, 필요한 세부 사항이 누락되는 문제가 발생합니다.
목표: 질문의 의미와 범위를 포착하는 시맨틱 라벨 (Semantic Labels) 을 자동 생성하고, 이를 기반으로 한 효율적인 검색 및 라벨링 파이프라인을 구축하는 것입니다.

2. 제안된 방법론: 하이브리드 준지도 학습 시맨틱 라벨링 (SSSL)

저자들은 SSSL (Semi-Supervised Semantic Labeling) 프레임워크를 제안하며, 이는 크게 두 단계로 구성됩니다.

2.1. 주석 단계 (Annotation Phase)

LLM 의 비용을 절감하면서도 일관된 라벨을 생성하기 위해 클러스터 수준에서 라벨링을 수행합니다.

임베딩 및 군집화:
- 모든 질문을 사전 학습된 임베딩 모델 (text-embedding-3-large) 로 변환합니다.
- Possibilistic C-Means (PCM) 알고리즘을 적용하여 질문들을 군집화합니다.
- 특징: 하드 클러스터링과 달리, 각 질문이 여러 군집에 중첩 (Overlap) 되어 속할 수 있도록 하여 보안 개념의 중첩성을 반영합니다.
- 군집 내 소속도 임계값은 'Elbow/Knee' 검출을 통해 자동으로 결정됩니다.
LLM 기반 라벨 생성:
- 개별 질문이 아닌, 군집 (Cluster) 단위로 LLM 을 호출합니다.
- LLM 은 해당 군집 내 질문들의 공통된 주제를 파악하여 재사용 가능한 시맨틱 라벨 (예: "접근 제어", "사고 대응") 을 생성합니다.
- 각 질문은 속한 모든 군집의 라벨을 합집합으로 가져가게 됩니다.

2.2. 예측 단계 (Prediction Phase)

새로운 질문이 들어왔을 때 LLM 호출 없이 라벨을 할당합니다.

k-NN (k-Nearest Neighbors) 기반 전파:
- 새로운 질문의 임베딩을 계산하고, 라벨이 할당된 기존 질문들 중 가장 유사한 $k$ 개의 이웃을 찾습니다.
- 이웃들의 라벨을 투표 (Voting) 방식으로 집계하여 예측 라벨을 결정합니다.
- OOD (Out-of-Distribution) 처리: 만약 투표 결과가 명확하지 않거나 (최소 2 표 미만), 새로운 질문이 기존 분포와 너무 다르면 LLM 에게 라벨링을 위임하는 폴백 (Fallback) 메커니즘을 가집니다.

2.3. 라벨 기반 검색 (Label-based Retrieval)

질문 텍스트 간의 직접적인 유사도 검색 대신, 생성된 시맨틱 라벨 공간에서 검색을 수행합니다.
사용자의 요청 (예: "백업 빈도 확인") 을 임베딩하고, 질문이 가진 라벨들의 임베딩과 매칭하여 점수를 산출합니다. 이를 통해 평가 의도와 통제 도메인이 명확한 질문을 선별합니다.

3. 주요 기여 (Key Contributions)

비용 효율적인 라벨링 파이프라인: LLM 을 모든 질문에 적용하는 대신, 군집 단위로만 호출하고 나머지는 k-NN 으로 전파하여 LLM 사용량과 비용을 대폭 절감했습니다.
의도 기반 검색 개선: 단순 텍스트 유사도가 아닌, 시맨틱 라벨을 활용한 검색이 평가 의도 (Scope) 와 통제 도메인 (Domain) 을 더 정확하게 반영함을 입증했습니다.
오픈 소스 및 데이터셋: 연구의 재현성을 위해 GitHub 에 코드, 데이터셋, 평가 스크립트를 공개했습니다.

4. 실험 결과 (Results)

실험은 CAIQ(Cloud Security Alliance) 및 합성 데이터셋을 기반으로 수행되었으며, LLM 만 사용하는 방식 (Baseline) 과 비교 분석되었습니다.

계산 효율성 (Computational Efficiency):
- 토큰 사용량: SSSL 은 LLM 만 사용하는 방식 대비 약 40% 감소 (57,146 토큰 → 34,527 토큰).
- 실행 시간: LLM 단계에서 약 33% 단축 (322 초 → 214 초).
- kNN 예측 단계: LLM 호출이 전혀 필요 없으며, 약 1,460 배 빠른 속도 (0.22 초) 와 에너지 소비 1,500 배 감소를 달성했습니다.
라벨 품질 (Label Quality):
- 일관성 (Consistency): 군집 기반 LLM 라벨링은 개별 라벨링보다 일관성이 매우 높았습니다 (4.8/5.0).
- 정확도 (Correctness): LLM 직접 라벨링이 가장 높았으나 (4.8), kNN 전파 단계에서는 정확도가 다소 하락했습니다 (1.8). 이는 서로 다른 표준 간 용어 차이 (Semantic Drift) 로 인한 것으로 분석되었습니다.
검색 성능 (Retrieval Performance):
- 라벨 기반 검색은 단순 의미 유사도 검색보다 전반적인 성능이 우수했습니다 (평균 점수 75 vs 70).
- 특히 복합적인 의도를 가진 쿼리 (예: 백업 + 모니터링) 에서 라벨 기반 접근이 더 잘 작동하여, 단일 도메인 질문과 다중 도메인 질문 모두에서 높은 점수를 기록했습니다.

5. 의의 및 결론 (Significance & Conclusion)

확장성: SSSL 프레임워크는 대규모 규정 준수 리포지토리를 관리할 때 LLM 의 높은 비용과 지연 시간을 해결하는 실용적인 솔루션을 제공합니다.
정밀도 향상: 시맨틱 라벨을 도입함으로써, 조직의 특정 평가 범위와 통제 도메인에 부합하는 질문을 더 정확하게 선별할 수 있게 되었습니다.
한계 및 향후 과제:
- 서로 다른 보안 표준 간 라벨 전파 시 정확도 하락 문제가 발생하므로, 향후 라벨 수준에서의 군집화나 점진적 학습을 통해 이를 개선할 필요가 있습니다.
- 추후 생성된 시맨틱 라벨을 활용하여 조직의 지식을 기반으로 한 자동화된 답변 생성 (Automated Question Answering) 으로 확장할 계획입니다.

이 논문은 제 3 자 위험 평가 프로세스를 자동화하고 효율화하기 위해 준지도 학습과 LLM 을 결합한 하이브리드 접근법의 유효성을 입증한 중요한 연구입니다.