Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

이 논문은 LLM 추론에 사용되는 CUDA 커널의 메모리 안전성을 자동으로 검증하는 첫 번째 실용적 시스템인 Model2Kernel 을 제안하며, 모델 인식 동적 분석과 심볼릭 실행을 통해 353 개의 새로운 버그를 발견하고 낮은 오검출률을 입증했습니다.

Mengting He, Shihao Xia, Haomin Jia, Wenfei Wu, Linhai Song

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏛️ 배경: 거대한 AI 도서관과 정교한 기계

현대 사회에서 AI(예: 챗봇, 검색 엔진) 는 거대한 도서관처럼 작동합니다.

  1. 도서관장 (LLM 모델): 책 (지식) 을 정리하고 답변을 준비하는 역할입니다.
  2. 작업반 (CUDA 커널): 도서관장이 지시한 대로 실제로 책장을 넘기고, 책을 꺼내고, 내용을 계산하는 수천 명의 일꾼들이 모여 있는 작업반입니다. 이 일꾼들은 GPU(그래픽 카드) 라는 초고속 기계 위에서 동시에 일을 합니다.

문제점:
이 일꾼들은 매우 빠르지만, 매우 까다로운 규칙을 따릅니다.

  • "책장 번호가 1000 번을 넘으면 안 돼."
  • "동료의 책장을 건드리면 안 돼."
  • "계산할 때 숫자가 너무 커지면 터져버려."

하지만 최근 AI 모델이 너무 커지고 복잡해지면서, 이 일꾼들이 **실수 (버그)**를 할 확률이 급격히 높아졌습니다. 한 명이라도 실수하면 전체 도서관이 멈추거나, 심지어 해커가 도서관의 비밀 문서를 훔쳐갈 수도 있습니다.


🕵️‍♂️ 해결사: Model2Kernel (모델을 아는 탐정)

기존의 보안 도구들은 두 가지 큰 문제가 있었습니다.

  1. 너무 느리거나 비쌌음: 모든 일을 직접 눈으로 확인하려다 보니 시간이 너무 오래 걸렸습니다.
  2. 상황을 몰랐음: 도서관장 (모델) 이 어떤 책을 언제 꺼내는지 모르고, 일꾼들에게 "가상"의 지시만 내렸기 때문에 실제 상황과 다른 오류를 많이 찾아냈습니다.

이때 등장한 Model2Kernel은 **"도서관장의 성격을 완벽히 이해하는 탐정"**입니다.

1. HFProbe: 도서관장의 행적 추적기 (가상 시뮬레이션)

이 도구의 첫 번째 구성 요소인 HFProbe는 실제 GPU(고성능 컴퓨터) 없이도 AI 모델을 '가상'으로 실행합니다.

  • 비유: 도서관장이 "오늘은 1000 권의 책을 정리해"라고 하면, HFProbe 는 "아, 오늘 1000 권이구나. 그럼 일꾼들에게 1000 권에 맞는 지시를 내려야겠다"라고 미리 파악합니다.
  • 핵심: AI 모델이 어떤 상황에서 어떤 지시를 내리는지, 그리고 그 지시가 일꾼들에게 어떻게 전달되는지 정확한 맥락을 파악합니다.

2. cuKLEE: 초능력을 가진 일꾼 감시관 (상징적 실행)

두 번째 구성 요소인 cuKLEE는 이 파악된 정보를 바탕으로 일꾼들의 작업을 가상 시뮬레이션으로 검증합니다.

  • 비유: 보통은 "책장 1 번부터 100 번까지 확인해"라고 지시하지만, cuKLEE 는 **"만약 책장이 10000 번까지 있다면? 만약 책장 번호가 음수가 되면?"**처럼 **모든 가능한 상황 (상징적 입력)**을 한 번에 상상하며 검증합니다.
  • 핵심: 실제 일을 시키지 않아도, "만약에 이런 일이 생기면?"이라는 시나리오를 수천 가지 만들어서, 어디서든 실수가 날 수 있는지 미리 찾아냅니다.

🚀 Model2Kernel 의 활약상

이 탐정 팀이 실제로 vLLM(인기 있는 AI 프레임워크) 과 Hugging Face(수백만 개의 AI 모델이 있는 곳) 에서 일어난 일을 분석한 결과 놀라운 성과를 거두었습니다.

  • 353 개의 숨겨진 버그 발견: 기존에는 전혀 몰랐던 치명적인 오류 353 가지를 찾아냈습니다.
    • 정수 오버플로우: "1000 권을 정리해"라고 했는데, 숫자가 너무 커져서 컴퓨터가 "음수"로 잘못 계산하는 경우.
    • 배터리 오버플로우: "100 번 책장까지 가"라고 했는데, 101 번 책장까지 넘어가서 다른 사람의 책장을 건드리는 경우.
  • 거의 오보 없음: 353 개 중 9 개만 오보 (실수가 아닌 것을 실수라고 한 경우) 였습니다. 이는 매우 높은 정확도입니다.
  • 기존 도구와의 비교: 다른 보안 도구들은 20 개의 알려진 버그 중 15 개만 찾았지만, Model2Kernel 은 15 개를 모두 찾아냈을 뿐만 아니라 훨씬 더 많은 새로운 버그를 찾아냈습니다.

💡 왜 이것이 중요한가요?

AI 가 우리 삶에 깊숙이 들어오면서, AI 시스템이 멈추거나 해킹당하는 것은 큰 재앙이 될 수 있습니다.

  • Model2Kernel은 AI 시스템이 **실제 사용 환경 (긴 대화, 복잡한 질문)**에서도 안전하게 작동할 수 있도록 미리 예방 주사를 맞는 것과 같습니다.
  • 이 도구는 AI 개발자들이 "우리가 만든 프로그램이 안전한가?"를 걱정하지 않고, 더 좋은 AI 를 만들 수 있게 도와줍니다.

📝 한 줄 요약

"Model2Kernel 은 AI 가 작동하는 복잡한 기계실 (GPU) 에서, 도서관장의 지시를 완벽히 이해한 채 모든 상황을 미리 시뮬레이션하여 치명적인 실수 (버그) 를 찾아내는 초강력 보안 시스템입니다."