An AI-ready, Polarized Electron-Positron Collision Dataset

Oorspronkelijke auteurs: Chi Lung Cheng, Simon Corrodi, T. J. Hobbs, Alaettin Serhan Mete, Benjamin Nachman

Gepubliceerd 2026-06-02

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Chi Lung Cheng, Simon Corrodi, T. J. Hobbs, Alaettin Serhan Mete, Benjamin Nachman

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een enorme, hoogtechnologische bibliotheek uit de jaren 90 voor die de blauwdrukken en logs bevat van een zeer bijzonder experiment. Dit experiment, genaamd SLD, was als een "Z-fabriek", waarbij elektronen en positronen op elkaar werden afgestoten om een deeltje te creëren genaamd het Z-boson. Wat deze fabriek uniek maakte, was dat de elektronenbundels "gepolariseerd" waren — denk aan draaiende tollen die allemaal in dezelfde richting draaien. Dit stelde wetenschappers in staat om dingen met een ongelooflijke precisie te meten die andere versnellers niet konden.

Echter, decennialang werd de data van deze fabriek bewaard in een digitale kluis. De bestanden waren geschreven in een oude, obscure taal (een mix van oude Fortran-code en binaire formaten) die moderne computers niet konden lezen, en de "sleutels" om ze te openen (de originele software en documentatie) waren verloren gegaan of verspreid geraakt.

Dit artikel is het verhaal van hoe een team wetenschappers AI heeft gebruikt om in te breken in die kluis, de oude taal te vertalen en de deuren voor iedereen te openen.

Hier is een overzicht van wat ze hebben gedaan, met behulp van eenvoudige analogieën:

1. De "Tijdscapsule"-data

Het team bracht ongeveer 660.000 gereconstrueerde gebeurtenissen (snapshots van deeltjesbotsingen) vrij uit 1996 tot 1998.

Het Probleem: Deze bestanden waren als een cassettebandje in een taal die niemand meer spreekt. De originele software om ze te lezen was verdwenen, en de documentatie bestond slechts uit stapels papier in een archief.
De AI-oplossing: Ze gebruikten AI-agenten (specifiek een tool genaamd "Claude") om te fungeren als een digitale archeoloog. De AI keek naar de ruwe binaire data (de enen en nullen) en vergeleek dit met bekende natuurkundige wetten (zoals een detective die het alibi van een verdachte controleert tegen de plaats van het misdrijf).
- Analogie: Stel je een vergrendelde doos voor zonder sleutel. In plaats van de doos te breken, kijk je naar de krassen op de doos, raad je wat erin zit op basis van het gewicht, en gebruik je dan een slimme assistent om de code van het cijferslot te achterhalen. De AI hielp hen de code te reverse-engineeren om de data te kunnen lezen.
Het Resultaat: Ze bouwden een nieuwe, open-source tool genaamd jazelle die deze oude bestanden vertaalt naar moderne, gemakkelijk te gebruiken formaten (zoals Parquet) die elke data scientist nu kan gebruiken.

2. De "Verloren Bibliotheek" aan Documentatie

Samen met de data digitaliseerden ze ongeveer 1.190 interne documenten.

Het Probleem: Dit waren fysieke papieren, waarvan velen fotokopieën van fotokopieën waren, met handgeschreven aantekeningen, slordige diagrammen en een mix van getypte tekst. Standaard scanners falen vaak bij dit soort "rommelig" papier.
De AI-oplossing: Ze testten vier verschillende AI-tools om deze documenten te lezen.
- Analogie: Het is also'n proberen een handgeschreven receptenkaart te lezen die koffievlekken en krabbels bevat. Sommige AI-tools probeerden de handschriften in tekst om te zetten maar raakten in de war door de rasterlijnen op het papier. Anderen waren goed in het lezen van tabellen maar faalden bij wiskundige vergelijkingen.
- Ze ontdekten dat ze, door de beste tools te combineren, deze rommelige pagina's in doorzoekbare tekst konden omzetten. Ze bouwden zelfs een AI "Librarian" (een vraag-antwoordsysteem) die deze documenten kan lezen en specifieke vragen kan beantwoorden, zoals: "Wat was de kloksnelheid van de microprocessor die in 1995 werd gebruikt?"

3. Bewijzen dat het werkt (De "Proefrit")

Voordat ze de sleutels overhandigden, moest het team bewijzen dat de data accuraat was. Ze gokten niet zomaar; ze voerden een "proefrit" uit.

De Test: Ze namen de nieuw vertaalde data en voerden exact dezelfde natuurkundige berekeningen uit die de oorspronkelijke wetenschappers 20 jaar geleden deden.
Het Resultaat: De getallen kwamen overeen. Ze hebben de beroemde metingen van de "zwakke menghoek" (een fundamentele eigenschap van het universum) succesvol gereproduceerd met de nieuwe data. Dit bewees dat de AI-vertaling niets kapot heeft gemaakt; het heeft de data alleen weer leesbaar gemaakt.

4. Waarom dit belangrijk is voor AI-onderzoek

Het artikel benadrukt dat deze dataset een unieke trainingsgrond is voor moderne kunstmatige intelligentie.

De Kloof: De meeste AI-modellen in de natuurkunde worden getraind op proton-proton botsingen (zoals bij de Large Hadron Collider), die rommelig en chaotisch zijn.
Het SLD-verschil: De SLD-data is "schoon" en de begincondities zijn perfect bekend.
Het "Nieuwe Gebied": De onderzoekers testten een modern AI-model (genaamd OmniLearned) op deze data. Ze ontdekten dat de SLD-data zich in een compleet ander "buurtje" bevindt (latente ruimte) dan andere datasets.
- Analogie: Als je een hond traint om een bal te halen in een park, kan hij in de war raken als je hem plotseling vraagt om een bal te halen in een zwembad. Deze dataset is het "zwembad" dat huidige AI-modellen nog nooit hebben gezien. Door deze vrij te geven, geeft het team AI-onderzoekers een nieuw, uniek milieu om van te leren, wat kan helpen bij het bouwen van betere, veelzijdiger modellen.

Samenvatting

Kortom, dit artikel gaat over het reanimeren van een verloren wetenschappelijke schat. Het team gebruikte AI om oude, onleesbare data en rommelige papieren aantekeningen te vertalen naar een modern, bruikbaar formaat. Ze bewezen dat de vertaling accuraat is door oude natuurkundige experimenten opnieuw uit te voeren, en ze toonden aan dat deze unieke data een frisse, schone speeltuin biedt voor het trainen van de volgende generatie AI-modellen in de deeltjesfysica.

Technische Samenvatting: Een AI-klare, Gepolariseerde Elektron-Positron Botsingsdataset

Probleemstelling
Ondanks de blijvende natuurkundige impact van het SLD-experiment bij de SLAC Linear Collider (SLC), bleven de gereconstrueerde gegevens van de run uit 1996–1998 (ongeveer 660.000 events) ontoegankelijk voor moderne analyse-instrumenten. De gegevens bestonden in legacy "Jazelle" binaire formaten, gedecodeerd door software geschreven in Mortran (een Fortran-extensie) die niet langer operationeel is op moderne systemen. Bovendien betekende het propriëtaire en slecht gedocumenteerde ecosysteem dat cruciale datastructuren, zoals de per-event elektronstraal-polarisatiebank (PHBM), effectief verloren waren gegaan. Deze ontoegankelijkheid vormt een bottleneck voor machine learning (ML) in de deeltjesfysica, die momenteel zwaar leunt op proton-proton botsingsgegevens (LHC) en een tekort heeft aan diverse, hoogwaardige datasets uit het $e^+e^-$ regime, met name die met bekende initiële-toestand polarisatie. Daarnaast bevindt de institutionele kennis die nodig is om deze legacy-datasets te interpreteren zich in fysieke interne nota's die nooit zijn gedigitaliseerd.

Methodologie
De auteurs voerden een tweeledige modernisering in die zowel gegevensreconstructie als documentatie-digitalisering omvatte:

Gegevensreconstructie en Translatie:
- Reverse Engineering: Het team heeft het binaire Jazelle-formaat gereconstrueerd via reverse engineering met behulp van AI-assistentie (specifiek Anthropic's Claude). Ze combineerden gedeeltelijke legacy-documentatie met "physics-based ground truth" (bijv. kinematische beperkingen van $Z \to q\bar{q}$ vervallen) om kandidaat-veldposities en datatype binnen de binaire banken te identificeren.
- De jazelle Toolkit: Er is een open-source Python-package ontwikkeld om de legacy-binaries te lezen en Awkward record arrays te genereren. Deze worden geserialiseerd naar moderne, kolomgeoriënteerde formaten (Parquet, HDF5, Feather).
- Omvang: De release beslaat de runs van 1996–1998. Het bevat event-headers, beam-informatie (inclusclusief polarisatie), geladen tracks, calorimeter clusters, deeltjesidentificatie-subsystemen en relationele tabellen. Er wordt een standaard datakwaliteitseis toegepast, maar geen specifieke kanaalselectie.
Documentatie-digitalisering en AI-gereedheid:
- Corpus: Ongeveer 1.190 interne SLD/SLC-nota's (voornamelijk uit 1980–1988) zijn gescand uit fysieke archieven.
- Extractie-pipeline: Vier tools werden geëvalueerd voor tekstextractie: Marker, Docling, Nougat (open-weight modellen) en de Azure AI Document Intelligence API. De pipeline gaat om met heterogene inputs, waaronder getypte nota's, fotokopieën, handgetekende figuren en complexe tabellen.
- Agentic Workflow: De geëxtraheerde tekst werd geïndexeerd met behulp van hybride retrieval (dense embeddings + keyword search). Een agentic vraag-antwoordsysteem werd gebouwd om de bruikbaarheid van het corpus te demonstreren, gebruikmakend van een Model Context Protocol (MCP) server voor iteratieve retrieval en redenering.

Belangrijkste Resultaten

Fysische Validatie: De auteurs reproduceerden canonieke SLD-metingen op de vertaalde dataset om interne consistentie te valideren:
- Kinematische Distributies: Gereconstrueerde zichtbare massaspectra en event-shape variabelen ( $\tau$ ) kwamen overeen met de verwachte $Z$ -pole fysica (bijv. back-to-back two-jet topologie).
- Asymmetrie-metingen: De links-rechts doorsnede-asymmetrie ( $A_{LR}$ ) en leptonische koppelingsasymmetrieën ( $A_\ell$ ) werden geëxtraheerd via event counting. De afgeleide effectieve zwakke mengingshoek ( $\sin^2 \theta_{eff}^W = 0.23144 \pm 0.00044$ uit $A_{LR}$ ) komt overeen met gepubliceerde waarden, wat bevestigt dat de dataset polarisatie-gevoelige inhoud behoudt.
- Beperkingen: De auteurs merken op dat ruwe $A_{LR}$ -waarden licht verschillen van gepubliceerde resultaten omdat de vrijgegeven dataset de specifieke electroweak correction software (ZFITTER) mist die in de oorspronkelijke analyse werd gebruikt. Evenzo vertonen leptonische kanaalaantallen kleine discrepanties door de onbeschikbare originele selectie-software.
ML Demonstratie: Met behulp van het OmniLearned foundation model hebben de auteurs SLD-jets ingebed naast jets van ALEPH ( $e^+e^-$ ), H1 ($ep$) en JetClass ($pp$). De t-SNE projectie toonde aan dat SLD-data een duidelijk gebied inneemt in de latente ruimte, gescheiden door de initiële toestand en energieschaal. Cruciaal is dat het als de enige gereconstrueerde detectordata in de vergelijking het een regime vertegenwoordigt (gepolariseerde $e^+e^-$ bij de Z-pole) dat niet wordt gevangen door huidige publieke MC-simulaties.
Documentatie Prestaties: Een agentic QA-systeem bereikte een bijna verzadigde taakvoltooiing (60/61 vragen) op een zelfgegenereerde benchmark door queries iteratief te herformuleren. Dit demonstreerde dat het gedigitaliseerde corpus complexe, meerstaps wetenschappelijke exploratie ondersteunt, waarbij het single-pass RAG-baselines overtreft.

Betekenis en Claims
De paper claimt dat deze release drie primaire doelen dient:

Preservatie: Het redt een unieke dataset van de enige high-energy lineaire $e^+e^-$ collider met gepolariseerde bundels, een configuratie die niet wordt gereproduceerd in toekomstige colliders.
ML Benchmarking: Het biedt een schone, goed begrepen omgeving met bekende initiële toestanden en polarisatie om de dominante hadron-collider datasets in ML-onderzoek aan te vullen. De afzonderlijke latente ruimte van SLD-data biedt een nieuwe testomgeving voor transfer learning en domain-shift benchmarks.
Nieuwe Fysica Potentieel: De dataset maakt nieuwe analyses mogelijk die gebruikmaken van moderne ML en theoretische vooruitgang die niet mogelijk waren tijdens de oorspronkelijke SLD-operatie.

De auteurs benadrukken dat de dataset een "trouwe startpunt" is voor analyses die ontbrekende radiatieve correcties en systematische behandelingen leveren, in plaats van een herafleiding van de uiteindelijke gepubliceerde resultaten. Het werk illustreert ook een breder patroon: legacy-datasets met verloren gegane software kunnen worden teruggewonnen door het combineren van overlevende documentatie, fysische beperkingen en moderne AI-tools.