Rewriting TTS Inference Economics: Lightning V2 on Tenstorrent Achieves 4x Lower Cost Than NVIDIA L40S

이 논문은 정밀도 인식 아키텍처 설계와 하드웨어 - 소프트웨어 공동 최적화를 통해 텐스토런트 하드웨어에서 Lightning V2 모델을 개발하여 NVIDIA L40S 대비 4 배 낮은 온프레미스 가속기 비용을 달성하면서도 오디오 품질 저하 없이 TTS 추론의 경제성을 혁신적으로 개선했음을 보여줍니다.

Ranjith M. S., Akshat Mandloi, Sudarshan Kamath

게시일 2026-04-07
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"텍스트를 음성으로 바꾸는 AI(음성 합성)"**를 훨씬 더 저렴하고 빠르게 만들 수 있는 새로운 방법을 소개합니다.

핵심 내용은 **"고성능 GPU(엔비디아 L40S) 대신, 더 싼 칩 (텐스토런트) 을 쓰되, AI 의 '정밀도'를 똑똑하게 조절해서 소리의 질은 그대로 유지하면서 비용을 4 배나 줄였다"**는 것입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제: "소리는 미세한 떨림에도 예민하다"

기존의 AI(텍스트 생성 AI 등) 는 숫자를 조금만 반올림해도 결과가 크게 달라지지 않습니다. 하지만 음성 AI는 다릅니다.

  • 비유: 텍스트 AI 는 레고 블록을 쌓는 것과 같습니다. 블록 하나를 조금만 비틀어도 전체 구조는 여전히 '성'으로 보입니다.
  • 음성 AI현악기 연주와 같습니다. 현을 튕길 때 손가락이 1 밀리미터만 움직여도 소리는 '탁' 하고 끊기거나, 금속 같은 이상한 소리가 납니다.
  • 기존의 난관: 그래서 음성 AI 는 아주 정밀한 계산 (고가의 고성능 GPU) 을 해야만 자연스러운 소리가 나옵니다. 이 때문에 운영 비용이 매우 비쌉니다.

2. 해결책: "스마트한 조율사" (Lightning V2)

연구팀은 텐스토런트라는 새로운 칩을 사용하면서, AI 가 계산하는 방식을 두 가지로 똑똑하게 바꿨습니다.

A. "LoFi(로우 피델리티) 모드"와 "BFP8(블록 부동 소수점)"

  • LoFi 모드: 모든 계산을 완벽하게 할 필요는 없습니다. 비유하자면, 노래를 부를 때 아주 중요한 고음 부분만 정밀하게 부르고, 나머지 부분은 조금 더 자유롭게 부르는 것입니다. 연구팀은 모델의 95% 이상을 이렇게 '간소화'해도 소리에 문제가 없음을 발견했습니다.
  • BFP8: 숫자를 저장할 때 메모리를 아끼는 방식입니다. 비유하자면, 같은 악보 (지시사항) 를 여러 악기에게 한 번에 복사해서 주는 것입니다. 이렇게 하면 메모리 사용량이 절반으로 줄어듭니다.

B. "텐스토런트 칩의 특별한 능력"

엔비디아 GPU 는 데이터를 멀리 있는 창고 (메모리) 에서 계속 가져와야 해서 시간이 걸리고 비쌉니다. 하지만 텐스토런트 칩은 작업대 (SRAM) 위에 재료를 미리 쌓아두고 바로바로 처리합니다.

  • 비유: 요리사가 식탁 (SRAM) 위에 모든 재료를 미리 준비해두고 요리하는지, 아니면 창고 (DRAM) 를 오가며 재료를 가져와야 하는지의 차이입니다. 연구팀은 이 '식탁'을 잘 활용해서 불필요한 움직임을 없앴습니다.

3. 놀라운 결과: "비싼 스포츠카 대신, 똑똑한 전기차"

이 방법을 적용한 결과, 놀라운 경제적 효과가 나왔습니다.

  • 비용 비교: 같은 양의 목소리를 만들어내는 데, 엔비디아 L40S 칩을 11 개 사야 한다면 (약 10 만 달러), 텐스토런트 칩은 27 개만 사면 됩니다 (약 2.7 만~3.7 만 달러).
  • 결론: 약 4 배 더 저렴해졌습니다.
  • 소리 질: "소리가 깨지거나 기계음이 날까 봐 걱정했다"고 하지만, 실제로는 사람이 들을 때 거의 차이가 없을 정도로 자연스러웠습니다.

4. 중요한 교훈: "숫자만 보면 안 된다"

이 논문에서 가장 재미있는 점은 측정 방법의 오류를 지적한 것입니다.

  • 기존에는 "AI 가 계산한 숫자가 원래와 얼마나 비슷한가?" (수치적 유사도) 를 기준으로 성능을 잰다면, 텐스토런트 칩은 숫자 차이가 꽤 나게 나왔습니다.
  • 하지만 사람의 귀로 들어보면 소리는 완벽했습니다.
  • 비유: "사진의 픽셀 수를 재서 화질을 판단하면, 눈으로 보는 느낌과 다를 수 있다"는 것과 같습니다. 연구팀은 **사람이 듣는 느낌 (청각적 품질)**을 기준으로 최적화를 했기 때문에 성공할 수 있었습니다.

요약

이 논문은 **"고가의 고성능 하드웨어에 의존할 필요 없이, AI 가 소리를 내는 원리를 이해하고, 하드웨어의 특징에 맞춰 계산 방식을 똑똑하게 조절하면, 비용을 4 배나 줄이면서도 소리의 질은 그대로 유지할 수 있다"**는 것을 증명했습니다.

이는 앞으로 우리가 사용하는 AI 비서, 음성 안내 시스템, 실시간 통역 서비스 등이 훨씬 더 저렴하고 대중적으로 보급될 수 있는 길을 열었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →