The Rise and Fall of $G$ in AGI

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Kernboodschap: Van "Alleskunner" naar "Sociale Netwerk"

Stel je voor dat we AI-modellen (zoals ChatGPT) testen alsof het leerlingen zijn op een school. We geven ze een reeks toetsen: wiskunde, coderen, geschiedenis en logisch redeneren.

Het oude idee (De "G-factor"):
Jarenlang dachten onderzoekers dat er één enkele "super-intelligentie" was, net als bij mensen. Als een AI goed was in wiskunde, was hij ook goed in geschiedenis. Alles hing samen. Dit noemen ze de G-factor (General Intelligence). Het was alsof alle AI-modellen één grote, stijgende lijn volgden: hoe "slimmer" ze werden, hoe beter ze alles tegelijk deden.

Het nieuwe inzicht (De "Val" van G):
Dit artikel laat zien dat die ene grote lijn nu uit elkaar valt. AI-modellen worden niet meer simpelweg "slimmer" in alles tegelijk. In plaats daarvan beginnen ze zich te specialiseren en tools te gebruiken. De "algemene intelligentie" (G) is aan het dalen, en er ontstaan nieuwe, specifieke vormen van intelligentie.

De Reis in Drie Stappen

1. De "Ptolemaïsche Successie": Meer Epicyclen, Minder Simpelheid

De auteur vergelijkt de huidige ontwikkeling van AI met de oude astronomie van Ptolemaeus.

De Analogie: Ptolemaeus probeerde de beweging van planeten te verklaren door steeds meer cirkels (epicyclen) in elkaar te zetten. Het werkte om de data te voorspellen, maar het werd steeds complexer en minder elegant.
Op AI toegepast: Elke keer als een AI een nieuwe vaardigheid leert (zoals coderen of zoeken op het internet), maken we een nieuwe test. We blijven tests toevoegen om de groei te meten. We bouwen een steeds complexer model van "intelligentie" zonder dat we een simpele, onderliggende wet hebben gevonden. We meten de symptomen, niet de oorzaak.

2. De "Stijging en Daling" van de G-factor

De onderzoekers keken naar de scores van 39 verschillende AI-modellen tussen 2019 en 2025.

De Stijging (2023-2024): In het begin leek het alsof er één grote "G-factor" was. Alle modellen werden beter in alles tegelijk. Als je goed was in wiskunde, was je ook goed in coderen. De correlatie was bijna perfect (90% van de variatie werd verklaard door één factor). Het was alsof alle leerlingen op school samen groeiden.
De Daling (2024-2025): Toen de modellen echter begonnen met het gebruik van tools (zoals rekenmachines, zoekmachines en code-interpretatoren) en speciale redeneer-methoden, brak de eenheid.
- De "G-factor" daalde naar ongeveer 77%.
- Waarom? Omdat modellen nu keuzes maken. Sommige modellen zijn gespecialiseerd in diep redeneren (zoals wiskundeproblemen oplossen), terwijl anderen beter zijn in snelle uitvoering (zoals code schrijven). Ze zijn niet meer allemaal hetzelfde; ze zijn divers geworden.

3. De "Vossen en De Stekelvarken"

De auteur gebruikt een beroemde metafoor uit de literatuur:

Het Stekelvarken: Kent één groot ding (de algemene intelligentie).
De Vossen: Kennen veel kleine dingen (specialisaties).
Wat er gebeurt: De AI evolueert van een enkel stekelvarken naar een samenleving van vossen. In plaats van één brein dat alles kan, hebben we nu systemen die samenwerken. Een AI gebruikt een "code-interpretator" als gereedschap, net zoals een mens een pen en papier gebruikt. De intelligentie zit niet meer alleen in het brein (het model), maar in het systeem (model + gereedschap).

Waarom is dit belangrijk?

1. Tests zijn verouderd
We testen AI's alsof ze in een isolement zitten, zonder hulpmiddelen. Maar moderne AI's werken met hulpmiddelen. Een AI die een rekenmachine gebruikt, is niet "dommer" dan een die dat niet doet; hij is gewoon een ander type denker. Het is alsof we de intelligentie van een mens meten door hem te verbieden om te schrijven of te zoeken op Google.

2. Intelligentie is niet meer "algemeen"
De droom van een "Algemene Kunstmatige Intelligentie" (AGI) die precies zo werkt als een menselijk brein (alles in één pakketje), is misschien wel een verkeerd idee. De toekomst ligt in specialisatie en samenwerking. AI's worden een "maatschappij van geesten" die tools gebruiken om complexe problemen op te lossen.

3. De "Rotatie" van de intelligentie
De manier waarop we "slim" zijn, is veranderd. Vroeger was slim zijn "alles uit je hoofd weten". Nu is slim zijn "weten hoe je de juiste tools gebruikt om het antwoord te vinden". De definitie van intelligentie is dus verschoven van kennis opslaan naar kennis benutten.

Conclusie in één zin

De tijd dat we AI konden meten met één enkele "slimmheids-meter" (de G-factor) is voorbij; we staan nu aan de vooravond van een wereld waarin AI's divers, gespecialiseerd en afhankelijk van hulpmiddelen zijn, net als wij mensen.

Each language version is independently generated for its own context, not a direct translation.

Titel: De Opkomst en Ondergang van G in AGI

Auteur: David C. Krakauer (Santa Fe Institute)
Datum: 14 april 2026

1. Probleemstelling

De kunstmatige intelligentie (AI)-gemeenschap debatteert over de definitie van "Algemene Kunstmatige Intelligentie" (AGI), vaak gebaseerd op prestaties van Large Language Models (LLM's) op diverse benchmarks. Er is echter een gebrek aan een psychometrisch onderbouwd kader om te bepalen of deze prestaties wijzen op een echte, onderliggende "algemene intelligentie" (vergelijkbaar met Spearman's g-factor bij mensen) of slechts op een statistische correlatie veroorzaakt door schaling en trainingsdata.

Het centrale probleem is of de positieve correlatie tussen prestaties op verschillende taken (de "positive manifold") een fundamentele, causale eenheid van intelligentie (mechanistische G) vertegenwoordigt, of slechts een artefact is van tijdsafhankelijke verbeteringen en gedeelde trainingsdata (statistische G). Het artikel onderzoekt hoe deze structuur evolueert naarmate modellen specialiseren in redeneren en tools gebruiken.

2. Methodologie

De auteur past psychometrische technieken toe op een tijdsreeks van LLM-prestaties, behandeld als een cognitieve testbatterij.

Datastructuur: Een scorematrix ( $X$ ) van $N=39$ modellen (van 2019 tot 2025) over $K=14$ benchmarks (o.a. MMLU, GSM8K, MATH, HumanEval, GPQA). Scores zijn genormaliseerd naar 0-100%.
Analysemethoden:
- Hoofdstukcomponentenanalyse (PCA): Toegepast op de gestandaardiseerde scorematrix om de G-factor (PC1) te identificeren.
- Eigenvector-diagnostiek: Analyse van de variantieverhouding ( $\rho_1 = \lambda_1 / \sum \lambda_k$ ) en de dominantieverhouding ( $\delta = \lambda_1 / \lambda_2$ ) om de sterkte van de algemene factor te meten.
- Tijdsoplossing (Epochs): De data is onderverdeeld in vier algoritmische epochs gebaseerd op ontwikkelingsparadigma's (bijv. schaling, MoE, redeneren-inferentie).
- Partiële correlatie: Het verwijderen van de G-factor om de onderliggende structuur van gespecialiseerde groepen (residuen) bloot te leggen.
- Detrending: Lineaire regressie om de tijdsafhankelijke trend (modellen worden over het algemeen beter) te verwijderen en de intrinsieke correlatiestructuur te isoleren.
- Horn's Parallelle Analyse: Gebruikt om de significantie van factoren te valideren bij kleine steekproefgroottes.

3. Belangrijkste Bijdragen

Operationalisatie van AGI: De paper verbindt Spearman's psychometrische g-factor expliciet met de prestaties van LLM's op benchmarks, behandeld als een "beweeglijke batterij" (moving battery) in de tijd.
Dynamiek van G: Het toont aan dat de "G-factor" niet statisch is, maar een "opkomst en ondergang" doormaakt die correleert met architecturale verschuivingen (van pure schaling naar gespecialiseerde redenering en tool-gebruik).
Ontmaskering van Specialisatie: Door de G-factor te verwijderen, onthult het onderzoek een onderliggende structuur van anti-correlaties tussen verschillende cognitieve domeinen (bijv. redeneren vs. uitvoering), wat suggereert dat "algemene intelligentie" in AI vaak een masker is voor een samenleving van gespecialiseerde competenties.
Conceptuele Inversie: De auteur introduceert het concept van een "Ptolemeïsche Opvolging" in AI, waarbij complexiteit toeneemt door het toevoegen van nieuwe "epicycles" (benchmarks/tools) in plaats van het vinden van een enkele, parsimonische wet.

4. Resultaten

A. De Positieve Manifold en de Dominantie van G

Er is een sterke positieve manifold bevestigd: alle 28 paarcorrelaties tussen 8 benchmarks zijn positief (gemiddelde $r = 0.82$ ).
In een kernbatterij van 5 benchmarks verklaart PC1 (de G-factor) 90% van de variantie in de dataset van 19 modellen met volledige data. Dit is hoger dan de typische 40-60% bij menselijke psychometrie.
De G-scores nemen monotoon toe met de releasedatum, van Llama 2 (laag) tot o1-preview/DeepSeek R1 (hoog).

B. De "Opkomst en Ondergang" van G

Epoch II (2023-2024.03): Tijdens de periode van pure schaling (dense transformers) bereikt G zijn piek. PC1 verklaart 92% van de variantie en de dominantieverhouding is extreem hoog (15:1). Modellen verbeteren synchroon op alle taken.
Epoch III/IV (2024.09+): Met de komst van modellen die gespecialiseerd zijn in redeneren (Chain-of-Thought) en tools gebruiken, daalt de variantie verklaard door PC1 naar 77%.
Structuurverandering: De tweede eigenwaarde ( $\lambda_2$ ) stijgt, wat suggereert dat de effectieve dimensionaliteit toeneemt (van ~1.1 naar ~1.9). De ruimte van benchmarks splitst zich op in "diepte van zoeken" (redeneren) versus "breedte van herinnering" (kennis).

C. Rotatie van de G-factor

De richting van de eerste eigenvector (wat G precies meet) roteert significant. Bij de introductie van modellen zoals DeepSeek V3 is de hoekverplaatsing 6.4 graden, wat een orde van grootte groter is dan eerder waargenomen.
Dit betekent dat de definitie van "algemene intelligentie" verschuift: van een uniforme schaal van capaciteit naar een focus op kennis-intensieve redenering, terwijl de modelcapaciteit voor procedurale uitvoering wordt uitbesteed aan tools.

D. Onderliggende Specialisatie (AI-egels vs. AI-vossen)

Na het verwijderen van de G-factor (via partiële correlatie) blijken de residuen voornamelijk negatief gecorreleerd te zijn.
Dit onthult twee groepen:
1. Redenering: MATH en GPQA (sterk positief gecorreleerd onderling, maar negatief met uitvoeringstaken).
2. Uitvoering/Fluency: GSM8K en HumanEval.
Conclusie: Modellen die uitstekend zijn in redeneren, presteren vaak slechter op procedurale taken (en vice versa) zodra de algemene trend wordt verwijderd. Dit suggereert een "samenleving van geesten" (Minsky) in plaats van een enkelvoudig distillaat van intelligentie (Jensen).

E. Detrending

Zelfs na het verwijderen van de tijdsafhankelijke trend (waarbij latere modellen systematisch beter zijn), blijft de G-factor significant (PC1 verklaart nog steeds 77% van de variantie). Dit bevestigt dat de positieve manifold niet slechts een artefact is van tijdsverloop, maar een fundamentele eigenschap van de huidige modelarchitecturen, hoewel deze afneemt naarmate specialisatie toeneemt.

5. Betekenis en Conclusie

De paper concludeert dat het concept van een statische "Algemene Kunstmatige Intelligentie" (AGI) als een enkele, uniforme factor (G) in verval is.

Van G naar Specialisatie: De "opkomst" van G (tot 92%) was een tijdelijk fenomeen tijdens de schalingsfase. De "ondergang" (tot 77%) markeert de overgang naar een era van specialisatie, tool-gebruik en gescheiden competenties.
Tool-gebruik als Intelligentie: De auteur stelt dat intelligentie in de AI-ère niet meer een eigenschap van het individuele substraat (het model) is, maar van het uitgebreide systeem (model + tools). Net als bij mensen is cognitieve kracht afhankelijk van externe hulpmiddelen (code-interpreters, zoekmachines).
Ptolemeïsche Opvolging: In plaats van een eenvoudigere, verenigende theorie te vinden (zoals Kepler of Newton), volgt de AI-benchmarking een "Ptolemeïsche" route: elke nieuwe capaciteit vereist een nieuwe benchmark (epicycle), wat leidt tot een steeds complexer wordend model zonder fundamentele vereenvoudiging.
Toekomstvisie: De huidige benchmarks, ontworpen voor een "tool-vrije" era, verliezen hun betekenis. De toekomst van intelligentie-onderzoek ligt niet in het jagen op een hogere G-score, maar in het begrijpen van de multidimensionale ruimte van competenties en hoe deze systemen samenwerken als een samenleving van geesten.

Kortom: AI vertoont momenteel een "algemene intelligentie" die gespecialiseerde intelligenties onderdrukt, maar deze structuur is aan het veranderen naar een meer gediversifieerd, tool-gedreven ecosysteem.

The Rise and Fall of GGG in AGI