Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superkrachtige robot (een kunstmatige intelligentie) hebt die heel slim is, maar die ook een gigantische rugzak nodig heeft om al zijn kennis en vaardigheden in te dragen. Deze robot werkt geweldig op een krachtige computer, maar als je hem wilt meenemen naar een klein, slim horloge of een goedkope camera, past die enorme rugzak er simpelweg niet in. De robot wordt dan "overbelast" en stopt met werken.

Dit is het probleem dat Mixed-Precision Quantization (MPQ) probeert op te lossen. Het is als het inpakken van die rugzak: je moet de zware, onnodige dingen (de zware getallen in de robot) vervangen door lichtere, kleinere versies, zonder dat de robot zijn slimheid verliest.

Het oude probleem: De "Gids" die te duur is

Vroeger hadden mensen twee manieren om deze rugzak in te pakken:

De dure methode: Je liet de robot zelf oefenen en leren hoe hij zijn rugzak moest inpakken. Dit kostte echter enorm veel tijd, energie en rekenkracht (zoals een marathon lopen om te leren hoe je een tas moet dragen).
De handmatige methode: Een slimme expert (een mens) keek naar de robot en bedacht regels: "Oh, deze onderdelen zijn belangrijk, die moeten zwaar blijven. Die andere zijn minder belangrijk, die mogen licht." Dit werkte, maar het kostte veel tijd om die regels te vinden, en elke nieuwe robotsoort vereiste weer een nieuwe expert.

De nieuwe oplossing: TAP (De AI die de gids schrijft)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd TAP. In plaats van een menselijke expert of een dure training, gebruiken ze een Grote Taalmodel (LLM) – denk aan een super-intelligente chatbot zoals de modellen die je nu gebruikt – om de regels voor het inpakken van de rugzak te bedenken.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Proefloper" (De Proxy)

Stel je voor dat je een nieuwe route wilt lopen. Je kunt niet elke keer de hele route lopen om te zien of hij goed is (dat kost te veel tijd). In plaats daarvan laat je een proefloper (een proxy) de route verkennen. Deze proefloper zegt: "Deze weg is steil, die is vlak."

Het oude probleem: De proeflopers die we vroeger gebruikten, waren handgemaakte regels die experts bedachten. Ze waren vaak stijf en pasten niet bij elke nieuwe route.
De TAP-oplossing: TAP laat de AI (de chatbot) zelf een proefloper ontwerpen. De AI schrijft een klein stukje code dat precies vertelt hoe de robot zijn rugzak moet inpakken.

2. De "Evolutie" (Probeer en Verbeter)

De AI schrijft niet meteen het perfecte plan. Het is meer een spelletje "proberen en verbeteren":

De AI schrijft een eerste plan.
Ze testen dit plan op een kleine groep robots.
Als het plan goed werkt, is het een winnaar. Als het slecht werkt, is het een verliezer.
De AI kijkt naar de winnaars en zegt: "Oké, dit idee was goed, laten we dat gebruiken voor het volgende plan."

3. De "Slimme Coach" (DPO)

Dit is het meest creatieve deel. Stel je voor dat je een coach hebt die niet zelf de training doet, maar die kijkt welke instructies het beste werken.

De AI heeft drie verschillende manieren om een plan te schrijven (bijvoorbeeld: "Denk aan de zwaarte", "Denk aan de snelheid", of "Denk aan de vorm").
De DPO-coach kijkt naar de resultaten. Als de methode "Denk aan de zwaarte" vaak winnaars oplevert, zegt de coach: "Goed, laten we de volgende keer vaker die instructie gebruiken."
Het mooie: De coach hoeft de AI niet opnieuw te leren (wat tijd kost). Hij past alleen aan welke instructie hij geeft. Dit maakt het proces razendsnel en goedkoop.

Waarom is dit zo geweldig?

Geen menselijke experts nodig: Je hoeft geen PhD te hebben in wiskunde om de regels te bedenken. De AI doet het.
Snel en goedkoop: Het duurt slechts een paar minuten (of zelfs seconden) om een perfect inpakplan te vinden, in plaats van dagen of weken.
Alles werkt: Of je nu een kleine camera of een grote robot hebt, de AI past het plan automatisch aan. Het werkt zelfs op nieuwe soorten robots die we nog nooit hebben gezien.

Samenvattend

Dit paper introduceert een systeem dat een AI-robot gebruikt om een andere AI-robot slim in te pakken voor kleine apparaten. In plaats van dat een mens urenlang nadenkt over regels, laat je de AI zelf experimenteren, met een slimme coach die de beste ideeën selecteert. Het is alsof je een team van duizenden slimme ingenieurs hebt die in een seconde samenwerken om de perfecte rugzak te bouwen, zonder dat je ze ooit hoeft te betalen of te trainen.

Het is een revolutie: van "menselijke experts die regels schrijven" naar "AI die de regels ontdekt en verbetert".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Diepe neurale netwerken (DNN's) worden steeds complexer, wat leidt tot "Out-Of-Memory" (OOM) problemen bij implementatie op hulpbronnenbeperkte apparaten (zoals MCUs en kleine NPUs). Mixed-Precision Quantization (MPQ) is een veelbelovende oplossing die de bit-breedte van verschillende lagen aanpast op basis van hun gevoeligheid, waardoor een betere balans tussen nauwkeurigheid en efficiëntie wordt bereikt vergeleken met vaste precisie.

Echter, bestaande methoden voor MPQ hebben twee grote beperkingen:

Differentieerbare methoden: Deze vereisen kostbare optimaalingsprocessen met hoge rekenkosten, wat praktische implementatie beperkt.
Training-vrije methoden (zoals HAWQ, OMPQ): Hoewel deze geen training vereisen, zijn ze sterk afhankelijk van handgemaakte heuristieken ontworpen door menselijke experts (bijv. gebaseerd op Hessiaanse matrices of statistieken van gewichten/activaties). Dit vereist veel expertise, is arbeidsintensief en vaak niet flexibel voor nieuwe architecturen. Bovendien vereisen deze methoden vaak grote kalibratie-datasets en veel iteraties om te convergeren.

De kernvraag van het paper is: Kunnen we een proxy (een indicator voor bit-toewijzing) ontwerpen zonder menselijke experts en zonder training?

Methodologie: TAP Framework

De auteurs stellen TAP (Training-free Automatic Proxy) voor, een raamwerk dat Large Language Models (LLMs) en evolutionaire zoekstrategieën combineert om automatisch superieure proxies te ontdekken.

De architectuur bestaat uit drie kerncomponenten:

Proxy Candidate Generator (LLM-gedreven):
- In plaats van handmatige formules, gebruikt TAP een LLM om nieuwe proxies te genereren. Een proxy wordt gedefinieerd als een tuple van (natuurtaalkundige redenering, uitvoerbare code).
- De LLM genereert proxies die gevoeligheidsscores berekenen voor convolutielagen en lineaire lagen, gebaseerd op architectuurmetadata (zonder toegang tot interne trainingssignalen zoals gradiënten of Hessiaanse matrices).
- Er worden drie operationele typen gebruikt: Initialisatie (nieuwe proxies creëren), Mutatie (bestaande logica verfijnen) en Crossover (combineren van sterke punten van twee ouders).
Fitness Evaluator:
- Elke gegenereerde proxy wordt getest op benchmarks (bijv. ImageNet-1k).
- De "fitness" wordt bepaald door twee factoren:
  - De correlatie (Spearman) tussen de voorspelde gevoeligheidsscores en de werkelijke quantisatiefout.
  - De Top-1 nauwkeurigheid van het gequantiseerde model onder de door de proxy voorgestelde bit-toewijzing.
- Dit resulteert in een adaptiviteitscore die de kwaliteit van de proxy meet.
DPO Evolution Scheduler (Direct Preference Optimization):
- Dit is het innovatieve hart van TAP. Om de "black-box" aard van LLMs te overbruggen en een feedbacklus te creëren zonder de LLM zelf te fine-tunen, gebruiken de auteurs een lichtgewicht DPO-strategiecontroller.
- De controller vergelijkt de fitness-scores van gegenereerde proxies en creëert "preferentieparen" (welke proxy is beter?).
- Gebaseerd op deze signalen worden de selectiewaarschijnlijkheden van de drie prompt-sjablonen (initialisatie, mutatie, crossover) dynamisch bijgewerkt.
- Belangrijk: De parameters van de LLM worden niet bijgewerkt; alleen de kansverdeling over de prompt-sjablonen verandert. Dit creëert een taakbewuste feedbacklus die de kwaliteit van de gegenereerde proxies iteratief verbetert.

Belangrijkste Bijdragen

Nieuw Paradigma voor MPQ: TAP is het eerste framework dat LLMs gebruikt om automatisch training-vrije proxies te ontdekken, waardoor de afhankelijkheid van handgemaakte regels en menselijke expertise wordt doorbroken.
DPO als Sjabloonselector: De auteurs introduceren een DPO-gebaseerde controller die de zoekstrategie dynamisch aanpast op basis van prestaties, zonder de LLM te fine-tunen. Dit lost het probleem op van instabiele resultaten bij directe prompting.
Uitgebreide Empirische Validatie: Het framework is getest op diverse modellen (ResNet, MobileNet, ViT, Swin) en datasets, waarbij het state-of-the-art prestaties behaalt met minimale kalibratie.

Resultaten

De experimenten tonen aan dat TAP superieur is aan bestaande methoden (zoals HAWQ, OMPQ, EMQ) op meerdere vlakken:

Nauwkeurigheid: Op ResNet-18 bereikt TAP een Top-1 nauwkeurigheid van 72,63% (vs. 72,28% voor EMQ en 72,08% voor OMPQ) met een zoekkosten van slechts 0,42 GPU-uren.
Efficiëntie: TAP vereist slechts 16 kalibratie-stalen en 5 iteraties om een hoge kwaliteit proxy te vinden, terwijl methoden zoals HAWQ-V2 duizenden stalen en 50 iteraties nodig hebben.
Generalisatie: Een op CIFAR-10 gevonden proxy werkt direct en zonder aanpassing op ImageNet-1k en grotere Transformer-architecturen (ViT, DeiT, Swin), wat aantoont dat TAP niet afhankelijk is van dataset-specifieke statistieken.
Snelheid: De volledige quantisatiecyclus (proxy generatie + bit-toewijzing) duurt minder dan 0,1 seconden (gemiddeld 0,0778s).
Robuustheid: Ablatiestudies tonen aan dat TAP ongevoelig is voor variaties in hyperparameters (zoals de wegingsfactor $\alpha$ ), de grootte van de populatie, en de willekeurigheid van de kalibratie-batches. Het werkt consistent over verschillende LLM-backbones (Deepseek, Qwen, Grok).

Beteeknis en Impact

Dit paper biedt een fundamentele verschuiving in het ontwerp van Mixed-Precision Quantization. Door de rol van menselijke experts te vervangen door een LLM-gedreven, zelfcorrigerend evolutionair proces, maakt TAP quantisatie:

Schalbaar: Makkelijk toepasbaar op nieuwe architecturen zonder nieuwe handmatige regels.
Efficiënt: Drastisch lagere rekenkosten en kalibratievereisten.
Toegankelijk: Democratiseert geavanceerde quantisatie voor ontwikkelaars zonder diepgaande expertise in quantisatie-theorie.

De auteurs concluderen dat TAP een nieuwe richting opent voor "LLM-driven design algorithms", waarbij grote taalmodellen niet alleen tekst genereren, maar ook complexe algoritmische structuren voor hardware-efficiëntie kunnen ontwerpen.

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Het oude probleem: De "Gids" die te duur is

De nieuwe oplossing: TAP (De AI die de gids schrijft)

1. De "Proefloper" (De Proxy)

2. De "Evolutie" (Probeer en Verbeter)

3. De "Slimme Coach" (DPO)

Waarom is dit zo geweldig?

Samenvattend

Probleemstelling

Methodologie: TAP Framework

Belangrijkste Bijdragen

Resultaten

Beteeknis en Impact

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics