Rewriting TTS Inference Economics: Lightning V2 on Tenstorrent Achieves 4x Lower Cost Than NVIDIA L40S

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een supersterke kok hebt die een perfecte soep (de stem) moet koken.

In de wereld van kunstmatige intelligentie (AI) hebben we twee soorten koks:

De Taalkok (LLM): Deze maakt teksten. Als je een lettertje in de soep verandert, proef je het misschien niet. De soep smaakt nog steeds goed.
De Stemkok (TTS): Deze maakt geluid. Hier is het heel anders. Als je hier zelfs maar een heel klein beetje zout (een numerieke fout) verkeerd doet, wordt de soep niet alleen wat minder lekker, maar kan hij eruitzien als metaal, ruisen of klinken als een robot die stopt met ademen.

Dit is het probleem waar dit papier over gaat: Hoe maak je een Stemkok goedkoper en sneller, zonder dat de soep er vies uitziet?

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Gouden" Keuken is te duur

Tot nu toe moesten deze Stemkoks werken in de duurste, meest luxe keukens (zoals de NVIDIA L40S). Deze keukens zijn zo goed dat ze geen fouten maken, maar ze kosten een fortuin (zoals $9.000 per stuk).
Voor bedrijven die duizenden stemmen tegelijk moeten maken (bijvoorbeeld voor een telefoonassistent), is dit te duur. Ze willen een goedkopere keuken, maar dan wel zonder dat de stemmen "kapot" klinken.

2. De Oplossing: "Lightning V2" en de Slimme Keuken

Het team van Smallest AI heeft een nieuwe manier bedacht om te koken, genaamd Lightning V2. Ze hebben deze methode speciaal gebouwd voor een ander type keuken: de Tenstorrent-keuken.

Deze Tenstorrent-keuken is goedkoper (ongeveer $1.000 - $1.400 per stuk), maar hij werkt heel anders dan de dure NVIDIA-keuken.

Hoe werkt het? (De Analogie van de Vrachtwagen)
Stel je voor dat je ingrediënten (de data) moet vervoeren:

De Dure Keuken (NVIDIA): De kok moet constant naar de grote, verre voorraadkast (het geheugen) rennen om ingrediënten te halen. Dat kost tijd en energie.
De Slimme Keuken (Tenstorrent): Hier heeft elke kok zijn eigen kleine kastje (SRAM) direct naast zich staan. Ze hoeven niet te rennen. Bovendien, als ze een specerij nodig hebben die iedereen gebruikt, gooien ze die niet naar iedereen, maar schudden ze de hele tafel (multicast) zodat iedereen het krijgt.

Dit betekent: Minder rennen, minder energie, en veel sneller.

3. De Magie: "Snoeien" zonder te Verbranden

Het team wilde de keuken nog goedkoper maken door minder precies te werken. In de dure keuken werken ze met gouden lepels (zeer nauwkeurige berekeningen). Ze dachten: "Wat als we met goedkopere plastic lepels werken?"

Het risico: Bij geluid maakt een plastic lepel de soep vaak "metaalachtig" of "ruisend".
De truc: Ze hebben gekeken waar je plastic lepels mag gebruiken en waar je gouden lepels nodig hebt.
- Bij 95% van de stappen in het koken (de "LoFi" stappen) werkt het prima met plastic lepels.
- Bij 80% van de ingrediënten kunnen ze de verpakking kleiner maken (BlockFloat8), waardoor ze minder ruimte nodig hebben.

Het resultaat? De soep klinkt exact hetzelfde als met de dure gouden lepels, maar het kost veel minder moeite.

4. Het Resultaat: 4x Goedkoper!

Dit is het belangrijkste deel. Als je wilt dat 550 mensen tegelijk een stem horen:

Met de dure NVIDIA-keuken moet je 11 van die dure ovens kopen. Kosten: ongeveer $100.000.
Met de slimme Tenstorrent-keuken moet je 27 van die goedkopere ovens kopen. Kosten: ongeveer $27.000.

Je hebt dus 4 keer minder geld nodig om hetzelfde werk te doen, en de kwaliteit van de stem is net zo goed.

5. Waarom is dit zo belangrijk?

Vroeger dachten mensen: "Als je goedkope hardware gebruikt, klinkt de AI slecht."
Dit papier bewijst het tegenovergestelde. Als je de software (de recepten) slim aanpast aan de hardware (de keuken), kun je duizenden dollars besparen zonder dat de klant merkt dat er iets anders is.

Kort samengevat:
Ze hebben een manier gevonden om een dure, trage AI-stem te maken in een goedkope, snelle machine. Het is alsof ze een Ferrari-motor hebben gebouwd in een goedkope auto, en die rijdt net zo snel en soepel als de dure versie.

Dit maakt het mogelijk dat in de toekomst elke app, elke telefoon en elke robot een eigen, goedkope stemassistent heeft, zonder dat het de maatschappij een vermogen kost.

Rewriting TTS Inference Economics: Lightning V2 on Tenstorrent Achieves 4x Lower Cost Than NVIDIA L40S

1. Het Probleem: De "Gouden" Keuken is te duur

2. De Oplossing: "Lightning V2" en de Slimme Keuken

3. De Magie: "Snoeien" zonder te Verbranden

4. Het Resultaat: 4x Goedkoper!

5. Waarom is dit zo belangrijk?

Titel

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Rewriting TTS Inference Economics: Lightning V2 on Tenstorrent Achieves 4x Lower Cost Than NVIDIA L40S

1. Het Probleem: De "Gouden" Keuken is te duur

2. De Oplossing: "Lightning V2" en de Slimme Keuken

3. De Magie: "Snoeien" zonder te Verbranden

4. Het Resultaat: 4x Goedkoper!

5. Waarom is dit zo belangrijk?

Titel

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Safe Decentralized Operation of EV Virtual Power Plant with Limited Network Visibility via Multi-Agent Reinforcement Learning

Customized User Plane Processing via Code Generating AI Agents for Next Generation Mobile Networks

NeuralLVC: Neural Lossless Video Compression via Masked Diffusion with Temporal Conditioning

Hypernetwork-Conditioned Reinforcement Learning for Robust Control of Fixed-Wing Aircraft under Actuator Failures

DRIFT: Deep Restoration, ISP Fusion, and Tone-mapping