Measuring the Redundancy of Decoder Layers in SpeechLLMs

본 논문은 스피치 LLM 의 디코더 레이어가 사전 학습된 LLM 의 중복성을 계승하며, 다양한 모델 규모와 언어 번역 작업에서도 특정 레이어들이 불필요함을 규명하여 단일 프루닝된 백본으로 다중 태스크를 수행할 수 있음을 보여줍니다.

Adel Moumen, Guangzhi Sun, Philip C Woodland

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 거대한 도서관의 '과잉' 직원들

지금 말하는 인공지능 (SpeechLLM) 은 크게 세 부분으로 이루어져 있습니다.

  1. 귀 (음성 인코더): 소리를 듣고 텍스트로 변환하는 역할.
  2. 다리 (프로젝터): 소리와 언어를 연결해주는 역할.
  3. 두뇌 (LLM 디코더): 언어를 이해하고 답을 만드는 거대한 모델.

이 중 '두뇌' 부분이 전체 인력의 90% 이상을 차지합니다. 마치 100 명짜리 팀이 있는데, 90 명 이상이 '문서 정리'만 하고 있고 실제 '문제 해결'에 필요한 사람은 10 명뿐인 것과 같습니다. 연구진은 **"이 90% 중 실제로 필요한 사람은 정말 90% 인가?"**라고 의문을 품었습니다.

2. 실험: 불필요한 층을 잘라내다 (가지치기)

연구진은 이 거대한 두뇌를 **층 (Layer)**이라는 층층이 쌓인 구조로 보았습니다. 그리고 **"어떤 층을 없애도 똑똑한 답을 낼 수 있을까?"**를 확인하기 위해 가지치기 (Pruning) 실험을 했습니다.

  • 비유: 32 층짜리 빌딩 (LLM) 이 있다고 칩시다. 연구진은 1 층부터 32 층까지 층을 하나씩 지워가며, 건물이 무너지지 않고 여전히 잘 작동하는지 확인했습니다.
  • 발견 1 (유전된 습관): 흥미롭게도, 이 '불필요한 층'의 위치는 텍스트만 읽는 모델이나 소리를 듣는 모델이나 거의 똑같았습니다.
    • 비유: "소리를 듣는 사람"과 "글을 읽는 사람"이 가진 두뇌 구조가 본질적으로 비슷하다는 뜻입니다. 소리를 듣기 위해 새로 두뇌를 키울 필요가 없었고, 원래 글 읽기용 두뇌에 이미 '여분'이 많았던 것입니다.
  • 발견 2 (크기가 클수록 여분이 많다): 모델이 클수록 (예: 80 억 개 파라미터) 더 많은 층을 잘라낼 수 있었습니다. 큰 모델일수록 "여분의 두뇌"가 훨씬 많았죠.
    • 결과: 80 억 개 모델의 경우, 약 40% 의 층을 잘라내도 (즉, 60% 만 남겨도) 원래 성능과 거의 차이가 없었습니다.

3. 핵심 기술: 잘라낸 후 '아픈 부위' 치료하기 (Healing)

단순히 층을 잘라내면 인공지능이 멍청해집니다. 마치 다리를 잘라낸 후 바로 뛰게 하면 넘어지는 것과 같죠. 그래서 연구진은 '치료 (Healing)' 과정을 도입했습니다.

  • 비유: 층을 잘라내자마자, 잘린 부분의 연결고리를 **LoRA(작은 보조 장치)**라는 '접착제'로 다시 붙여주었습니다.
  • 중요한 점: 단순히 두뇌 (디코더) 만 치료하는 것보다, 소리와 두뇌를 연결하는 다리 (프로젝터) 까지 함께 치료해야 가장 잘 작동했습니다.
    • 비유: 다리를 잘라낸 후, 다리 자체만 고치는 게 아니라 '다리 - 두뇌' 연결부까지 함께 다듬어줘야 다시 정상적으로 걸을 수 있었던 것입니다.

4. 확장: 번역도 가능할까?

이제 이 발견이 **말을 다른 언어로 번역 (Speech Translation)**하는 일에도 통할지 확인했습니다.

  • 결과: 놀랍게도 **음성 인식 (ASR)**과 번역 (AST) 모두에서 똑같은 층들이 불필요한 것으로 판명났습니다.
  • 의미: 하나의 '가지치기 된' 모델을 만들어두면, 음성 인식과 번역 두 가지 일을 모두 할 수 있다는 뜻입니다. 별도의 모델을 따로 만들 필요가 없는 것입니다.

5. 결론: 더 가볍고 빠른 인공지능의 탄생

이 연구는 우리에게 다음과 같은 희망을 줍니다.

  1. 효율성: 거대한 인공지능의 약 40~60% 의 두뇌를 잘라내도 성능이 거의 떨어지지 않습니다.
  2. 속도와 비용: 층을 줄이면 계산 속도가 빨라지고, 메모리 사용량이 줄어듭니다. (실제 실험에서 35% 더 빨라지고 메모리도 30% 이상 줄었습니다.)
  3. 범용성: 소리를 듣고, 번역하고, 질문을 답하는 등 다양한 작업을 하나의 가벼운 모델로 처리할 수 있게 됩니다.

한 줄 요약:

"우리가 쓰던 거대한 말하기 AI 는 사실 과도한 여분의 두뇌를 가지고 있었습니다. 연구진은 이 불필요한 층들을 잘라내고 연결부만 다듬어, 더 가볍고 빠르면서도 똑똑한 AI를 만들어냈습니다. 이제 우리는 무거운 AI 를 들고 다니지 않아도 됩니다!"