Composer: A Search Framework for Hybrid Neural Architecture Design

Each language version is independently generated for its own context, not a direct translation.

Composer: De "Masterchef" die de perfecte receptuur voor AI ontdekt

Stel je voor dat het bouwen van een groot taalmodel (zoals de slimme AI's die we vandaag gebruiken) net zo is als het bakken van een gigantische taart. Tot nu toe hebben alle bekende taarten (zoals de beroemde "Llama" taarten) precies hetzelfde recept gevolgd: afwisselend een laagje beslag (MLP) en een laagje vulling (Attention). Dit werkt goed, maar misschien is het niet de beste taart die we kunnen bakken.

De onderzoekers van Meta en de Universiteit van Texas hebben een nieuwe tool bedacht, genaamd Composer. Composer is geen taartbakker zelf, maar een slimme zoekmachine die duizenden nieuwe recepten uitprobeert om te zien welke taart het lekkerst is, zonder dat ze elke taart eerst in een enorme oven hoeven te bakken.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Te veel keuzes, te weinig tijd

Het ontwerp van een AI-model is als een enorm legbord. Je kunt de blokken (de verschillende onderdelen van de AI) op miljarden manieren stapelen. Als je elk mogelijk recept zou uitproberen door het echt te bakken (trainen), zou het je jaren kosten en een fortuin aan stroom kosten. Vroeger lieten experts hun eigen "buikgevoel" beslissen welk recept ze probeerden. Maar dat is als gokken in het casino.

2. De Oplossing: Composer, de "Proefbakker"

Composer is een slimme framework die het proces automatiseert. Het doet dit in vier stappen, alsof je een proefkeuken runt:

De Zoekmachine (Search Engine): In plaats van een hele grote taart te bakken, bakt Composer eerst een mini-taartje (een heel klein model). Het probeert honderden variaties: "Wat als we 2 lagen beslag en 4 lagen vulling doen?" of "Wat als we eerst vulling doen en dan beslag?".
- De slimme truc: Het gebruikt een techniek die lijkt op Bayesian Optimization. Stel je voor dat je een blind proefje doet. Als de eerste proef taartje te droog is, zegt de computer: "Oké, de volgende keer doen we meer boter." Het leert snel van elke fout en zoekt steeds gericht naar het perfecte recept.
De Proefkeuken (Evaluator): Hoe weet je of een mini-taartje goed is, als je hem nog niet in de grote oven hebt gedaan? Composer gebruikt speciale proefkaarten (zoals het MAD-dataset). Dit zijn simpele, synthetische puzzels die de AI moet oplossen. Als de mini-taart deze puzzels goed oplost, is de kans groot dat de grote taart ook goed is. Het is alsof je een kok test met een simpele soep voordat je hem de hele bankettaart laat maken.
De Samenvoeger (Aggregator): Na het testen van honderden mini-taarten heeft Composer een lijst met de beste kandidaten. Soms is de ene taart goed, maar de andere iets beter. In plaats van één te kiezen, mixt Composer de beste onderdelen van allemaal. Het kijkt: "Welke laag komt het vaakst voor in de beste taarten?" en bouwt daar een nieuw, super-recept van.
De Vergroter (Extrapolator): Nu hebben we het perfecte recept voor een mini-taart. Hoe maken we er een gigantische taart van? Composer gebruikt twee methoden:
- Stapelen: Je neemt het kleine blokje en stapelt het 1000 keer op elkaar.
- Uitrekken: Je neemt het patroon en maakt elke laag gewoon groter, alsof je een elastiek uitrekt.
- Het wonder: Het recept dat perfect werkte voor het mini-taartje, werkt ook perfect voor de gigantische taart van 8 miljard parameters!

3. Het Resultaat: De Nieuwe "Super-Taart"

Met Composer hebben de onderzoekers een nieuw type AI-model ontdekt, dat ze "Composite" noemen.

Het recept: In plaats van de standaard 1-op-1 verhouding (1 laag beslag, 1 laag vulling), bleek dat een verhouding van 1 op 2 (1 laag beslag, 2 lagen vulling) veel beter werkt.
De voordelen:
- Smaakt beter: De AI maakt minder fouten en leert sneller dan de huidige beste modellen (zoals Llama 3.2).
- Sneller gebakken: Omdat er minder zware lagen (Attention) zijn, is het sneller om te trainen en sneller om te gebruiken.
- Minder energie: Het kost minder stroom en geheugen om te draaien.

Conclusie

Voorheen was het vinden van een beter AI-recept een kwestie van geluk en hard werken. Met Composer hebben de onderzoekers een automatische "Masterchef" gecreëerd die systematisch duizenden recepten test in een mini-keuken, en dan het beste recept schaalbaar maakt naar een gigantische keuken.

Het bewijst dat we niet vastzitten aan de oude, standaard manier van bouwen. Door slim te zoeken en te experimenteren, kunnen we AI-modellen maken die slimmer, sneller en zuiniger zijn. Het is alsof we eindelijk hebben ontdekt dat je taart niet altijd in dezelfde volgorde moet worden gebakken om perfect te zijn.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "COMPOSER: A SEARCH FRAMEWORK FOR HYBRID NEURAL ARCHITECTURE DESIGN", gepresenteerd op ICLR 2026, in het Nederlands.

Probleemstelling

Hybride modelarchitecturen, die verschillende computationele primitieven (zoals Attention en MLP) in variabele verhoudingen combineren, hebben potentieel om de prestaties van traditionele Transformers te overtreffen. Bestaande werken (zoals Qwen3-Next, Mamba-2, DeepSeek-V3) tonen aan dat het aanpassen van de verhouding en de volgorde van deze primitieven de modelkwaliteit kan verbeteren.

Echter, het ontwerpen van dergelijke hybride architecturen gebeurt momenteel handmatig en op basis van intuïtie. De ontwerpruimte is enorm: voor een hybride LLM met 32 lagen en slechts twee primitieven (Attention en MLP) zijn er al meer dan 4 miljard ($2^{32}$) mogelijke configuraties. Het systematisch doorzoeken van deze ruimte voor pre-training is onhaalbaar vanwege de hoge trainingskosten en de schaal. Bestaande Neural Architecture Search (NAS) frameworks zijn vaak beperkt tot het zoeken naar hyperparameters (zoals breedte of aantal lagen) binnen een vaste structuur, of ze zijn ontworpen voor post-training optimalisatie (zoals Nemotron) of voor randapparatuur (edge) op kleine datasets. Er ontbreekt een principieel framework om automatisch efficiënt hybride LLM-architecturen te ontdekken die goed presteren op grote schaal.

Methodologie: Het Composer Framework

De auteurs introduceren Composer, een modulair framework voor Hybride Neural Architecture Search (HNAS). Het framework zoekt op kleine schaal en extrapoleert de beste resultaten naar grote schaal. Composer bestaat uit vier kerncomponenten:

HNAS Search Engine (Zoekmotor):
- Doel: Genereert en doorzoekt kandidaat-architecturen binnen een beperkte grootte.
- Methoden: De auteurs vergelijken drie zoekstrategieën:
  - One-Shot Search: Zoekt direct naar een optimale configuratie voor een kleine diepte (bijv. 6 of 16 lagen) met behulp van Bayesiaanse Optimalisatie (Gaussian Process).
  - End-Layer Incremental Search: Bouwt het model laag voor laag op, waarbij de eerste lagen vast worden gezet en alleen de laatste lagen worden gezocht.
  - Middle-Layer Incremental Search: Zoekt in het midden van het model, waarbij begin- en eindlagen vast blijven.
- Schaalverkleining: Om de zoekkosten te verlagen, worden zowel de diepte als de breedte van de primitieven verkleind ten opzichte van het doelformaat. De auteurs vinden dat het verkleinen van de breedte essentieel is om de verhouding tussen breedte en diepte te behouden, wat leidt tot betere resultaten bij schaalvergroting.
HNAS Evaluator (Evaluatie):
- Doel: Trainen en evalueren van kandidaat-architecturen op een kleine dataset om een snelle signaal te krijgen over de potentie op grote schaal.
- Dataset Keuze: De auteurs evalueren drie datasets: een gesampelde versie van DCLM (web-data), BabiStories (synthetisch), en MAD (synthetische token-manipulatie taken).
- Resultaat: Ze concluderen dat web-data (DCLM) ondoeltreffend of onpraktisch is voor kleine schaal zoekopdrachten. MAD blijkt de beste proxy te zijn: het is goedkoop, levert snelle resultaten, en de gevonden architecturen generaliseren uitstekend naar grote schaal.
HNAS Aggregator (Aggregator):
- Doel: Synthetiseert de zoekresultaten tot één definitieve kleine hybride LLM.
- Techniek: Ze gebruiken $N_c$ clustering. In plaats van alleen het beste model te kiezen, worden de top-kandidaten geclusterd. Voor elke laag wordt de meest voorkomende primitief gekozen, afhankelijk van de voorgaande lagen ( $c$ ).
- Vind: De methode met $c=0$ (onafhankelijke keuze per laag op basis van frequentie) werkt het beste. Dit "gladstrijkt" ruis en overfitting die tijdens de kleine schaal zoekopdracht kunnen optreden, en resulteert in een robuustere architectuur.
HNAS Extrapolator (Extrapolatie):
- Doel: Schaalt de gevonden kleine architectuur op naar de gewenste grote schaal (bijv. van 1M naar 3B parameters).
- Technieken:
  - Stacking: Het gevonden kleine model wordt als een blok herhaald.
  - Stretching: De verhouding en het patroon van de primitieven worden behouden, maar het aantal lagen in elke groep wordt proportioneel opgeschaald.
- Vind: Stacking werkt goed voor kleine zoekdieptes, maar Stretching op een grotere zoekdiepte (bijv. 16 lagen) leidt tot creatievere en betere interlacing-patronen die beter presteren op grote schaal.

Belangrijkste Bijdragen en Ontdekkingen

De "Composite" Architecturen: Met Composer ontdekten de auteurs twee nieuwe hybride architecturen die de standaard Transformer-structuur (1:1 Attention:MLP) doorbreken:
1. Stacked Composite: Een patroon van 2A + 4M (2 Attention lagen gevolgd door 4 MLP lagen), wat resulteert in een 1:2 verhouding.
2. Stretched Composite: Een complexer patroon (2A + 5M + 2A + 3M + 1A + 3M) dat eveneens neigt naar een 1:2 verhouding.
Principe van Schaalverkleining: Het is cruciaal om zowel de diepte als de breedte te verkleinen tijdens de zoekopdracht. Zoeken met een te grote breedte (maar kleine diepte) leidt tot architecturen die goed presteren op kleine schaal maar falen bij schaalvergroting.
Proxy Datasets: Synthetische datasets zoals MAD zijn superieur aan gesampelde web-data voor het leiden van de zoekopdracht, omdat ze specifieke vaardigheden testen die goed correleren met grote schaal prestaties.

Resultaten

De nieuwe "Composite" architecturen werden getest tegen Llama 3.2 en andere state-of-the-art hybride modellen (zoals Sandwich Transformer en Striped Attention) op schalen van 350M tot 8B parameters.

Prestaties:
- Validatieverlies: Consistente reductie van het validatieverlies op de DCLM dataset (bijv. -0.03 tot -0.05) vergeleken met Llama 3.2.
- Downstream Taken: Gemiddelde verbetering van 2-2.1% in nauwkeur op diverse downstream taken (zoals ARC, HellaSwag, PIQA, WinoGrande).
- Vergelijking: Ze overtreffen ook andere hybride baselines zoals Sandwich Transformer en Striped Attention.
Efficiëntie:
- Trainingsdoorvoer: 1.25x sneller dan Llama 3.2.
- Inferentie: 1.33x lagere latentie en 1.69x kleinere KV-cache (door minder Attention-lagen).
- Kosten: De zoekkosten werden drastisch verlaagd door het gebruik van kleine schaal zoekopdrachten en de MAD-dataset.

Significantie

Dit paper biedt een principieel en automatiseerbaar raamwerk voor het ontwerpen van hybride LLM-architecturen, een gebied dat tot nu toe gedomineerd werd door handmatige intuïtie.

Schalbaarheid: Het bewijst dat het mogelijk is om op kleine schaal te zoeken en de resultaten succesvol te extrapoleren naar modellen die 1000x groter zijn.
Efficiëntie: De ontdekte architecturen bieden niet alleen betere prestaties, maar zijn ook aanzienlijk efficiënter in training en inferentie, wat cruciaal is voor de toekomst van grootschalige taalmodellen.
Toekomstperspectief: Het framework is modulair en kan worden uitgebreid met andere computationele primitieven (zoals Mamba, Gated Delta Net, Sliding Window Attention), wat de deur opent voor het ontdekken van nog geavanceerdere modelarchitecturen.

Samenvattend toont Composer aan dat systematische zoekmethoden, gecombineerd met slimme schaalverkleining en proxy-evaluatie, leiden tot superieure hybride LLM-ontwerpen die de huidige stand van de techniek (Llama 3.2) overtreffen in zowel kwaliteit als efficiëntie.

Composer: A Search Framework for Hybrid Neural Architecture Design

1. Het Probleem: Te veel keuzes, te weinig tijd

2. De Oplossing: Composer, de "Proefbakker"

3. Het Resultaat: De Nieuwe "Super-Taart"

Conclusie

Probleemstelling

Methodologie: Het Composer Framework

Belangrijkste Bijdragen en Ontdekkingen

Resultaten

Significantie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers