What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee zeer slimme, maar onafhankelijk opgeleide kunstenaars hebt. De ene heet scGPT en de andere Geneformer. Ze hebben allebei duizenden foto's van cellen (de bouwstenen van ons lichaam) bekeken en geleerd om de genen (de instructies in die cellen) te begrijpen.

De grote vraag in de wetenschap is: Hebben deze kunstenaars echt iets geleerd over hoe het leven werkt, of hebben ze gewoon patronen gevonden die toevallig lijken op biologie?

De auteur van dit artikel, Ihor Kendiukhov, heeft een slimme manier bedacht om dit te testen. In plaats van één of twee vragen te stellen, liet hij een AI-robot 141 verschillende hypotheses (vermoedens) bedenken, testen en evalueren. Het is alsof je een detective-team hebt dat 141 sporen volgt om te zien welke echt leiden naar de schat en welke doodlopen.

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De "Stadskaart" is echt, maar de "Huisnummers" niet

De twee kunstenaars (de modellen) hebben onafhankelijk van elkaar gewerkt, met verschillende gegevens en verschillende methoden. Toch bleek dat ze allebei een dezelfde kaart van de genen hebben getekend.

De analogie: Stel je voor dat twee mensen onafhankelijk van elkaar een kaart van Amsterdam tekenen. Als ze allebei precies dezelfde pleinen, straten en gebouwen op de juiste plek zetten, weten we dat ze de stad echt begrijpen.
Het resultaat: De modellen weten welke genen "buren" zijn en welke ver van elkaar liggen. Ze hebben de vorm van de stad goed begrepen.
De valkuil: Als je echter probeert om te zeggen: "Dit specifieke huisnummer in model A is hetzelfde als dat huisnummer in model B", dan faalt het. Ze hebben de stad op dezelfde manier getekend, maar ze hebben de straten een andere naam gegeven. Je kunt ze dus niet letterlijk vertalen, maar je kunt wel zeggen dat ze dezelfde structuur zien.

2. Genen vormen "Lussen" (Net als een mierenhoop)

De onderzoekers keken of de genen in de computer een simpele lijn vormen of iets complexers, zoals een lus of een ring.

De analogie: In een gewone lijn loop je van A naar B en daar is het klaar. Maar in een biologisch systeem zijn er vaak terugkoppelingen: A maakt B aan, B maakt C aan, en C remt A weer af. Dit vormt een lus.
Het resultaat: De modellen hebben deze lussen in hun interne "ruimte" gevonden. Het is alsof ze een mierenhoop hebben ontdekt waar de mieren in cirkels lopen in plaats van in rechte lijnen. Dit is een teken van echte biologische kennis, want dit soort lussen komen echt voor in ons lichaam.

3. De "Korte Kruisweg" werkt beter dan de rechte lijn

Vaak denken we dat de kortste weg tussen twee punten een rechte lijn is. Maar in de wereld van genen is dat niet zo.

De analogie: Stel je voor dat je door een berglandschap loopt. De rechte lijn (Euclidische afstand) gaat dwars door de berg heen, wat onmogelijk is. De echte weg is een kronkelend pad over de hellingen (de "manifold").
Het resultaat: De modellen hebben geleerd dat je genen beter kunt vergelijken door te kijken naar het kronkelende pad dat ze volgen, niet door de rechte lijn. Dit helpt hen beter te voorspellen welke genen samenwerken.

4. Het geheim zit in de "Immuniteit" (De sterke plek)

Dit is misschien wel het belangrijkste en meest verrassende punt. De modellen zijn niet overal even goed in.

De analogie: Stel je voor dat je een spion bent die een stad moet verkennen. Je bent perfect in het verkennen van het militaire district (het immuunsysteem), maar in de woonwijk (de longen) zie je veel minder duidelijk.
Het resultaat: De "magische" patronen die de modellen hebben gevonden, zijn heel sterk in het immuunsysteem. Maar als je kijkt naar de longen of andere weefsels, worden de patronen vaag en onbetrouwbaar.
Waarom? Waarschijnlijk omdat het immuunsysteem heel goed gestructureerd is (zoals een leger met duidelijke eenheden) en we daar ook veel meer gegevens over hebben. In de longen is het chaotischer en hebben we minder goede kaarten.

5. De "Valstrik" van te veel informatie

De onderzoekers probeerden ook om extra biologische kennis (zoals wetenschappelijke databases) toe te voegen om de modellen te helpen.

De analogie: Het is alsof je een detective helpt door hem een lijstje te geven met alle mogelijke verdachten. Soms helpt dat, maar vaak maakt het de zaak verwarrender omdat het lijstje zelf al vooroordelen bevat.
Het resultaat: Als ze te veel extra informatie toevoegden, leek het alsof de modellen alles wisten, maar dat was een illusie. Zodra ze de "echte" test deden (zonder de hulp van de lijstjes), bleek de magie weg. De modellen leerden dan alleen maar de fouten in de lijstjes, in plaats van de biologie zelf.

Conclusie: Wat moeten we onthouden?

Dit onderzoek is als een grote "realitycheck" voor de wetenschap.

Ja, de modellen leren echt iets: Ze hebben de vorm en de structuur van het leven begrepen (de lussen, de buren, de kaart).
Maar wees voorzichtig: Die kennis is niet overal even sterk. Het is het sterkst in het immuunsysteem en zwakker elders.
Niet alles wat eruitziet als een patroon, is waar: Veel dingen die er eerst indrukwekkend uitzagen, bleken bij nader inzien slechts toeval of artefacten te zijn.

De auteur zegt eigenlijk: "De modellen zijn slim, maar ze zijn geen magische kristallen bollen. Ze hebben een waardevol, maar beperkt inzicht, en we moeten precies weten waar dat inzicht geldt en waar het ophoudt."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses" in het Nederlands.

Probleemstelling

Biologische foundation modellen (zoals scGPT en Geneformer) presteren uitstekend op downstream taken zoals celtype-annotatie en voorspelling van genperturbaties. Echter, de fundamentele vraag blijft onbeantwoord: bevatten hun interne representaties daadwerkelijk biologisch betekenisvolle geometrische en topologische structuren, of zijn deze structuren slechts statistische artefacten van het trainingsproces?

Bestaand onderzoek heeft aangetoond dat deze modellen lineaire structuren coderen, maar het is onduidelijk of er diepere, niet-lineaire structuren (zoals lussen, kromming van het manifold, gemeenschapsgrenzen en directionele asymmetrieën) bestaan die biologische betekenis dragen. Traditionele, hypothesegedreven benaderingen zijn ongeschikt voor dit probleem vanwege de enorme zoekruimte van mogelijke geometrische eigenschappen en het risico op publicatiebias (alleen positieve resultaten rapporteren).

Methodologie: Autonome Hypothesescanning

De auteurs hanteren een revolutionaire aanpak: autonome hypothesescanning.

Systeem: Een AI-gestuurde loop bestaande uit een "executor" en een "brainstormer" (aangedreven door een LLM, OpenAI Codex 5.3).
Proces:
1. De brainstormer proposeert 2-4 nieuwe hypothesen per iteratie, gebaseerd op eerdere resultaten (zowel positief als negatief) om redundante tests te vermijden.
2. De executor schrijft en voert zelfstandige Python-experimenten uit op vooraf geëxtraheerde embeddings van de modellen.
3. Er worden kwantitatieve rapporten gegenereerd met effectgroottes, $p$ -waarden (gekalibreerd tegen null-modellen) en oordelen (pass/fail).
Uitdaging: In totaal werden 141 unieke hypothesen getest over 52 iteraties.
Data & Modellen:
- Modellen: scGPT (12 lagen) en Geneformer V2-316M (18 lagen).
- Data: Tabula Sapiens atlas (weefsels: long, immuun, en een externe long-dataset).
- Ground Truth: DoRothEA, TRRUST, STRING en Gene Ontology.
Null-modellen (Cruciaal): Om valse positieven te voorkomen, werd een hiërarchie van steeds strengere null-modellen gebruikt:
1. Feature-shuffle: Permuteert eigenschappen binnen genen.
2. Label-permutation: Permuteert regulatoire labels.
3. Degree-preserving rewiring: Houdt de graad van het kNN-graf vast maar wisselt connecties uit.
4. Coexpression-matched: Controleert voor de confounding factor dat co-geëxprimeerde genen van nature dicht bij elkaar liggen.
5. Strict max-null audit: Vergelijkt het signaal tegen het maximum van de 95e percentiel van alle null-families tegelijk (de strengste test).

Belangrijkste Bijdragen

Autonome Validatie: Een systeem dat systematisch zowel positieve als negatieve resultaten documenteert, waardoor een volledig kaartbeeld ontstaat van wat modellen wel en niet coderen.
Strikte Null-Controles: Het introduceren van een hiërarchisch null-modelkader dat aantoont dat veel ogenschijnlijk sterke signalen verdwijnen onder strengere controle.
Gedetailleerde Kaart van Geometrie: Een empirisch bewezen onderscheid tussen robuuste biologische signalen en statistische artefacten in biologische foundation modellen.

Resultaten

De resultaten worden gepresenteerd van meest robuust tot meest fragiel:

1. Cross-model Geometrische Consistentie (Sterk Bewijs)

Onafhankelijk getrainde modellen (scGPT en Geneformer) convergeren naar dezelfde geometrische organisatie van genruimte.
CCA-alignment: Toonde een canonieke correlatie van 0.80 en een gen-retrieval nauwkeurigheid van 72%.
Nuance: Hoewel de modellen het "vorm" van de genruimte (wie dicht bij wie zit) overeenkomen, kunnen ze geen precieze gen-voor-gen vertaling maken (top-1 retrieval < 1% voor 19 geteste methoden). Ze leren dezelfde relaties, maar met verschillende interne coördinaten.

2. Niet-Triviale Topologie (Robuust onder feature-shuffle)

Persistent Homology: De embeddings vertonen significante "lussen" (H1-klassen) in 11/12 lagen van scGPT (p < 0.05), wat wijst op cyclische regulatoire motieven (feedback-loops).
Fragiliteit: Deze topologie verdwijnt volledig onder degree-preserving rewiring nulls. De structuur is dus afhankelijk van de specifieke nabijheidsgraf, niet van een diepere geometrische invariant.

3. Hiërarchie van Afstandsmaten (Matig)

Manifold-afstanden (zoals geodesische afstand en diffusie-afstand) presteren beter dan Euclidische afstand voor het identificeren van regulatoire genparen.
De triangle-defect spectrum (meting van lokale kromming) was de sterkste enkele geometrische metric (∆AUROC +0.026).
Echter, onder coexpression-matched nulls vermindert dit voordeel aanzienlijk, wat suggereert dat een deel van het signaal voortkomt uit co-expressiepatronen in plaats van pure regulatoire geometrie.

4. Gereguleerde Motieven en Gemeenschapsstructuur (Sterkste Signaal)

De sterkste bevinding (H123) combineerde geometrische gemeenschapsstructuur (Louvain communities) met TRRUST annotaties (activatie vs. repressie).
Het model organiseert genen zodanig dat activatie- en repressiedoelen geometrisch onderscheidbare posities innemen binnen een gemeenschap.
Dit resultaat behaalde een ∆AUROC van +0.094 en overleefde alle strenge null-controles (22/22 rijen positief).
Waarschuwing: Het toevoegen van extra biologische prioren (zoals STRING of GO) verhoogde de ruwe effectgrootte, maar vernietigde systematisch de robuustheid tegen null-controles.

5. Lokalisatie van het Signaal (Fragiel)

Onder de Strict Max-Null Audit (de strengste test) bleek het signaal sterk gelokaliseerd:
- Immuunweefsel: Robuust positief signaal.
- Longweefsel: Marginaal/Negatief.
- Externe Long: Negatief.
Dit suggereert dat de geometrische structuur afhankelijk is van het weefselcontext, mogelijk door de sterkere modulaire architectuur van het immuunsysteem of betere annotaties in de databases.

6. Negatieve Resultaten (70+ Hypothesen)

Veel veelbelovende signalen (zoals brugkromming of eindige-toestandsgrammatica) bleken artefacten onder strenge controle.
Cross-model correspondentie op gen-niveau is onmogelijk.
Hyperbolische geometrie is geen geschikte metafoor voor deze representaties.

Betekenis en Conclusie

Dit artikel biedt een gekalibreerd perspectief op wat we kunnen verwachten van biologische foundation modellen:

Realiteit vs. Artefact: De modellen coderen wel degelijk echte, biologisch betekenisvolle geometrische structuren (topologie, gemeenschappen, afstandshiërarchie), maar deze zijn minder robuust en meer gelokaliseerd dan vaak wordt aangenomen.
De Rol van Null-Modellen: De keuze van het null-model is cruciaal. Zonder strenge controles (zoals degree-preserving rewiring of coexpression-matching) worden veel valse positieven gerapporteerd.
Weefselafhankelijkheid: Geometrische interpretabiliteit is niet universeel; signalen zijn sterker in goed geannoteerde en modulaire weefsels (immuun) dan in andere (long).
Methodologische Impact: De studie benadrukt dat negatieve resultaten even waardevol zijn als positieve voor het begrijpen van modelcapaciteiten. De autonome screening heeft effectief de grens getrokken tussen echte biologische structuur en statistische ruis.

Kortom, biologische foundation modellen hebben een "kaart" van de genruimte geleerd die de topologie van biologische netwerken weerspiegelt, maar deze kaart is niet perfect, niet overal even gedetailleerd, en vereist extreme voorzichtigheid bij interpretatie.

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

1. De "Stadskaart" is echt, maar de "Huisnummers" niet

2. Genen vormen "Lussen" (Net als een mierenhoop)

3. De "Korte Kruisweg" werkt beter dan de rechte lijn

4. Het geheim zit in de "Immuniteit" (De sterke plek)

5. De "Valstrik" van te veel informatie

Conclusie: Wat moeten we onthouden?

Probleemstelling

Methodologie: Autonome Hypothesescanning

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models