DAPA: Distribution Aware Piecewise Activation Functions for On-Device Transformer Inference and Training

DAPA introduceert een distributiebewuste, differentieerbare en hardwarevriendelijke stuksgewijze activatiefunctie die door het toekennen van fijnere segmenten aan waarschijnlijkheidsrijke gebieden en het gebruik van kwantisatie, de GELU-berekening 16 keer versnelt en het DSP-gebruik 16 keer verlaagt voor Transformer-modellen, terwijl de prestaties behouden blijven.

Maoyang Xiang, Bo Wang

Gepubliceerd 2026-03-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Wat is het probleem?

Stel je voor dat je een slimme robot (een Transformer, zoals die in AI-tools wordt gebruikt) op een klein apparaatje wilt laten draaien, bijvoorbeeld je telefoon of een slimme camera. Deze robot moet heel snel beslissingen nemen.

Om slim te zijn, gebruikt de robot een soort "schakelaar" die heet een activatiefunctie. Deze schakelaar zorgt ervoor dat de robot niet alleen simpele rekenwerkjes doet, maar ook complexe patronen kan leren (zoals een gezicht herkennen of een zin afmaken).

Het probleem is dat deze schakelaars in de huidige AI-modellen heel ingewikkeld en "duur" zijn om te berekenen. Het is alsof je een robot een ingewikkeld wiskundig raadsel laat oplossen voor elke simpele stap die hij zet. Dit kost veel batterij, maakt het apparaat warm en vertraagt de reactietijd.

De Oplossing: DAPA

De onderzoekers van de Singapore University of Technology and Design hebben een nieuwe manier bedacht om deze schakelaars te versimpelen, genaamd DAPA (Distribution-Aware Piecewise Activation).

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Kaart van de Drukte" (De Verdeling)

Stel je voor dat je een grote stad hebt. Meestal staan de meeste mensen op een paar drukke plekken (zoals het centrale station of een markt), en op andere plekken in de stad is het bijna altijd leeg.

  • De oude manier (MSE): De oude methoden maakten een kaart van de stad waarbij ze elke straat even groot maakten. Ze besteedden evenveel tijd en aandacht aan een leeg veld als aan het drukke station. Dit is inefficiënt; je verspillat energie aan plekken waar niemand is.
  • De DAPA-methode: DAPA kijkt eerst naar waar de mensen echt zijn. Het maakt de kaart heel gedetailleerd en nauwkeurig op de drukke plekken (waar de meeste data vandaan komt) en maakt de kaart grover en simpeler op de lege plekken.
    • Met een metafoor: Het is alsof je een fotograaf bent die een foto maakt. In plaats van overal even scherp te focussen, focust hij super scherp op het gezicht van de persoon (het belangrijke deel) en laat hij de achtergrond een beetje wazig (het onbelangrijke deel). Zo krijg je een prachtige foto zonder dat je een dure camera nodig hebt.

2. De "Puzzelstukjes" (Piecewise Approximation)

In plaats van één heel moeilijke formule te gebruiken, snijdt DAPA de taak op in stukjes (zoals een puzzel).

  • Waar het druk is (de hoge kansgebieden), gebruikt hij heel kleine, precieze puzzelstukjes.
  • Waar het rustig is, gebruikt hij grove, grote stukjes.
    Dit zorgt ervoor dat de robot net zo slim blijft, maar veel minder energie verbruikt om de puzzel op te lossen.

3. De "Nieuwe Scorekaart" (DWMSE)

Om te weten of hun nieuwe methode goed werkt, gebruiken de onderzoekers een nieuwe manier om te scoren, genaamd DWMSE.

  • De oude scorekaart (MSE) gaf een foutje op een drukke plek en een foutje op een lege plek even zwaar.
  • De nieuwe scorekaart (DWMSE) zegt: "Een foutje op een drukke plek is erg belangrijk, een foutje op een lege plek maakt niet uit." Hierdoor leren de robots veel beter en sneller.

Wat zijn de resultaten?

De onderzoekers hebben DAPA getest op verschillende modellen (voor beeldherkenning en tekstschrijven) en op hardware (FPGA-chips). De resultaten zijn indrukwekkend:

  • Snelheid: De berekening van de "schakelaar" (GELU) is 16 keer sneller.
  • Energie: Het apparaat gebruikt 16 keer minder rekenkracht (DSP-bronnen).
  • Slimheid: Ondanks dat het simpeler is, blijft de robot even slim, of wordt hij zelfs nog iets slimmer dan voorheen. Hij leert net zo snel als de oude, zware versies.
  • Training: Je kunt AI-modellen niet alleen gebruiken met DAPA, maar je kunt ze er ook mee leren. Ze groeien net zo snel op als met de oude methoden.

Conclusie

DAPA is als het bouwen van een slimme, energiezuinige auto. In plaats van een zware V8-motor te gebruiken voor elke rit (ook als je alleen naar de supermarkt gaat), gebruikt DAPA een slimme motor die zich aanpast aan de weg. Op drukke wegen (waar de data zit) geeft hij volle kracht, en op lege wegen schakelt hij over op een zuinige stand.

Dit maakt het mogelijk om krachtige AI-applicaties (zoals zelfrijdende auto's of slimme camera's) te laten draaien op kleine apparaten zonder dat de batterij direct leeg is of het apparaat oververhit raakt.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →