CliffordNet: All You Need is Geometric Algebra

Each language version is independently generated for its own context, not a direct translation.

CliffordNet: Waarom je soms gewoon "wiskunde" nodig hebt in plaats van "ingewikkelde bouwblokken"

Stel je voor dat je een enorm complex legpuzzel moet maken. De manier waarop moderne kunstmatige intelligentie (zoals AI die foto's herkent) dit tot nu toe doet, is alsof je een enorme stapel aparte gereedschappen gebruikt: eerst een schroevendraaier om de randen te maken, dan een hamer om de binnenkant te vullen, en daarna weer een speciale lijm om de kleuren te mengen. Dit werkt wel, maar het is zwaar, traag en vereist heel veel onderdelen.

De onderzoekers achter CliffordNet zeggen: "Wacht even. Waarom gebruiken we niet gewoon de natuurwetten die al in de wiskunde zitten? Waarom bouwen we een machine als we de wiskunde zelf al de oplossing heeft?"

Hier is wat ze hebben gedaan, vertaald in simpele taal:

1. De oude manier: "Eerst mengen, dan verwerken"

Tot nu toe hebben AI-modellen (zoals Transformers) twee aparte stappen nodig om een plaatje te begrijpen:

Stap 1: Kijken naar de buurt (wat zit er naast elkaar?).
Stap 2: Een enorme "mixer" gebruiken om alle kleuren en vormen door elkaar te halen. Deze mixer is vaak heel zwaar en traag.

2. De nieuwe manier: CliffordNet

CliffordNet doet alles in één stap. Ze gebruiken een oud wiskundig concept genaamd Geometrische Algebra (bedacht door een man genaamd Clifford in de 19e eeuw).

Stel je voor dat je twee mensen ziet die praten.

De oude AI kijkt alleen naar wat ze zeggen (de woorden, de "inhoud").
CliffordNet kijkt ook naar hoe ze staan en hoe ze bewegen (de "structuur" en de "ruimte" tussen hen in).

In de wiskunde van CliffordNet gebeurt dit door een speciale formule die twee dingen tegelijk doet:

Het "Kijk-maar" deel (Inhoud): Dit ziet of twee dingen op elkaar lijken (zoals twee rode blokken).
Het "Draai-mee" deel (Structuur): Dit ziet hoe twee dingen verschillen en hoe ze een nieuw vlak vormen (zoals hoe een rode bloem en een groen blad samen een nieuw patroon maken).

Door deze twee dingen tegelijk te doen, heeft het model geen zware mixer meer nodig. De wiskunde zelf doet het zware werk. Het is alsof je in plaats van een hele keuken met apparatuur, gewoon een magische lepel hebt die alles in één beweging perfect mengt.

3. De "Rollende" truc (Om het snel te houden)

Normaal gesproken zou het berekenen van al die relaties tussen elk puntje in een foto heel lang duren (zoals het controleren van elke persoon op een feestje met elke andere persoon).

CliffordNet gebruikt een slimme truc: Het "Rollende" effect.
Stel je een cirkel van mensen voor. In plaats dat iedereen met iedereen praat, draait de groep een beetje. Iedereen praat nu met de persoon die net naast hen staat, en dan met de persoon die twee plekken verder zit, enzovoort.

Hierdoor hoeven ze niet iedereen te controleren, maar ze krijgen toch een goed beeld van de hele groep.
Dit maakt het model extreem snel en licht, zelfs op kleine telefoons.

4. Wat is het resultaat?

Het resultaat is verbazingwekkend:

Kleiner en slimmer: Hun kleinste model (CliffordNet-Nano) is net zo slim als een veel zwaarder model (ResNet-18), maar heeft 8 keer minder onderdelen.
Geen "FFN" nodig: Ze hebben de zware "mixer" (die ze Feed-Forward Network noemen) helemaal verwijderd. Het bewijs is dat de wiskundige interactie tussen de punten al zo krachtig is, dat die mixer overbodig is.
Snelheid: Het is sneller en zuiniger, terwijl het beter presteert op kleine foto's (zoals die van dieren of voorwerpen).

De grote les

De boodschap van dit papier is eigenlijk heel filosofisch: Soms is "meer" niet "beter".

We denken vaak dat we steeds complexere bouwblokken nodig hebben om slimme AI te maken. CliffordNet toont aan dat als je teruggaat naar de basiswiskunde en de "geometrie" van de wereld gebruikt, je veel minder nodig hebt. Het is alsof je een ingewikkeld uurwerk hebt gebouwd, maar je ontdekt dat de zon al precies de tijd aangeeft als je gewoon naar de schaduw kijkt.

Kortom: CliffordNet is een nieuwe manier om AI te bouwen die niet bouwt met zware blokken, maar "drijft" op de natuurlijke wiskunde van ruimte en vorm. Het is sneller, lichter en misschien wel de toekomst van slimme computers.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige computervisie-architecturen, variërend van CNNs tot Transformers, vertrouwen voornamelijk op het stapelen van heuristische modules: ruimtelijke mixers (zoals Attention of Convolutie) gevolgd door kanaal-mixers (Feed-Forward Networks of FFNs). Deze "MetaFormer"-paradigma's hebben twee fundamentele beperkingen:

Geometrische verlies: Standaard interacties (zoals dot-product attention) projecteren complexe relaties tussen tokens naar een enkel scalair getal. Hierdoor gaat structurele informatie (zoals orthogonaliteit en oriëntatie) verloren, wat leidt tot de noodzaak van zware, parameter-inefficiënte FFNs om deze informatie te reconstrueren.
Complexiteit en Globaliteit: Modellen die proberen globale context te modelleren (zoals ViTs) lijden vaak onder kwadratische complexiteit ( $O(N^2)$ ), terwijl lineaire modellen (zoals SSMs) vaak afhankelijk zijn van recursieve compressie of complexe scanpatronen die de intrinsieke 2D-topologie van beelden schenden.

Het paper stelt de vraag of we kunnen terugkeren naar wiskundige eerste principes om een eenheid te creëren die zowel feature-coherentie als structurele variatie efficiënt kan modelleren zonder de noodzaak van zware FFNs.

Methodologie: CliffordNet

De auteurs introduceren CliffordNet (ook wel CAN genoemd), een visuele backbone die puur is gebaseerd op Geometrische Algebra (Clifford Algebra). In plaats van gescheiden modules voor mixen en geheugen, gebruiken ze de Clifford Geometrische Product als de fundamentele interactiemechanisme.

1. De Clifford Interactie Ansatz

De kern van het model is de uitbreiding van de interactie tussen een feature-vector $H$ en zijn context $C$ via het geometrische product:
$uv = u \cdot v + u \wedge v$
Dit product combineert twee componenten die samen "algebraïsche volledigheid" bieden:

Veralgemeende Inproduct ( $u \cdot v$ ): Vangt de coherentie of gelijkenis tussen features op (scalair component). Dit fungeert als een gating-mechanisme dat feature-magnitude reguleert.
Exterieurproduct ( $u \wedge v$ ): Construeert een bivector (een 2-blad) die het vlak opspant tussen $u$ en $v$ . Dit component vangt orthogonaliteit en structurele variatie op (zoals randen en texturen) en fungeert als een geometrisch koppel of vorticiteit.

2. Efficiënte Realisatie: Sparse Rolling

Het berekenen van het volledige geometrische product zou kwadratische complexiteit ( $O(D^2)$ ) vereisen. Om dit lineair te houden ( $O(N)$ ), introduceren de auteurs een Sparse Rolling Interaction strategie:

In plaats van alle kanaal-paren te berekenen, worden de feature-stromen cyclisch verschoven (rolled) met specifieke offsets $s$ .
Dit benadert het volledige product door specifieke diagonale componenten van de interactiematrix te selecteren, wat zorgt voor een lineaire complexiteit in zowel sequentielengte als kanaal-dimensie.
De context $C$ wordt gegenereerd via lokale operatoren (gefactoriseerde convoluties die een Laplace-operator benaderen) en/of een globale context (global average pooling).

3. Architectuur en "No-FFN" Paradigma

Isotroop Ontwerp: CliffordNet behoudt de 2D-spatiale rangschikking van tokens door het hele netwerk (geen serialisatie zoals bij ViTs).
Gated Geometric Residual (GGR): De update-regel is een gediscrétiseerde vorm van een differentiaalvergelijking die de evolutie van features beschrijft.
Eliminatie van FFN: Omdat het geometrische product zowel coherentie als structuur (via de bivector) direct encodeert, blijken standaard Feed-Forward Networks (FFNs) overbodig. Het model bereikt hoge prestaties zonder de zware MLP-blokken die in Transformers gebruikelijk zijn.

Belangrijkste Bijdragen

Wiskundige Unificatie: Het reframen van visuele feature-interactie via het concept van algebraïsche volledigheid. Het herstel van het bivector-component (structuur) naast het scalair component (gelijkenis) in één rigoureuze operatie.
Geometrische Evolutie: Het formuleren van diep leren als een continue dynamische evolutie, gedreven door lokale geometrische context (benaderd via Laplace-operatoren), wat een brug slaat tussen fysische diffusieprocessen en neurale representatie.
Native 2D Topologie: Het vermijden van image serialization. Het model werkt direct op isotrope 2D-featuregrids, wat de intrinsieke topologie van visuele data behoudt zonder complexe positionele encoding.
Paradigmaverschuiving in Efficiëntie: Het aantonen dat zware FFNs overbodig zijn wanneer geometrische interacties expressief genoeg zijn. Dit resulteert in een nieuwe Pareto-grens voor modellen met lineaire complexiteit.

Resultaten

De prestaties zijn gevalideerd op de CIFAR-100 dataset, een strenge test voor efficiëntie en generalisatie.

CliffordNet-Nano (1.4M parameters): Bereikt 77.82% nauwkeurigheid. Dit komt overeen met ResNet-18 (11.2M parameters) maar met 8x minder parameters. Het verslaat ShuffleNetV2 (1.4M) met 4.3% punten.
CliffordNet-Lite (2.6M parameters): Bereikt 79.05% nauwkeurigheid, wat een nieuwe state-of-the-art (SOTA) is voor modellen onder de 3M parameters.
Vergelijking: Het model presteert aanzienlijk beter dan ViT-Tiny (65.87%) en MobileNetV2 (70.90%) binnen vergelijkbare parameterbudgetten.
Ablatie Studies:
- De "Differential Mode" (Laplacian context) presteert beter dan de "Absolute Mode".
- Zelfs de "Wedge-Only" variant (alleen structuur, geen energie/inproduct) presteert bijna even goed als de "Inner-Only" variant, wat aantoont dat structurele topologie extreem discriminatief is.
- De combinatie van beide (CliffordNet) levert de beste resultaten op.

Betekenis en Toekomstperspectief

CliffordNet suggereert een fundamentele verschuiving in het diep leren: global understanding kan ontstaan puur uit rigoureuze, lokaal volledige interacties, zonder de noodzaak van expliciete globale attention-mechanismen of zware FFNs.

Efficiëntie: Het bewijst dat geometrische volledigheid een krachtigere inductieve bias is dan brute-force kanaal-mixing.
Toepassingen: Vanwege de strikte lineaire complexiteit ( $O(N)$ ) is het ideaal voor hoge-resolutie taken zoals semantische segmentatie en objectdetectie, waar ViTs vaak vastlopen door hun kwadratische kosten.
Toekomst: De auteurs zien potentie voor schaling naar ImageNet, toepassing in 3D-vision (via hogere-orde geometrische producten), en het integreren van symplectische stromen voor fysica-gebaseerde simulaties.

Kortom, CliffordNet toont aan dat "Geometry is all you need" een haalbare en superieure benadering kan zijn voor het ontwerpen van efficiënte en krachtige visuele backbone-architecturen.