LAND: A Longitudinal Analysis of Neuromorphic Datasets

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Grote Data-Gezelschap: Een Reis door de Wereld van Neuromorfe Camera's

Stel je voor dat de wereld van de neuromorfe techniek (computers die werken zoals een menselijk brein) een enorm, drukke stad is. In deze stad bouwen onderzoekers steeds slimmere robots en camera's. Maar er is een groot probleem: de stad heeft een tekort aan goede landkaarten.

De auteurs van dit artikel, Gregory Cohen en Alexandre Marcireau, hebben de afgelopen tien jaar alle "landkaarten" (datasets) die in deze stad zijn geproduceerd, verzameld en onderzocht. Ze hebben 423 verschillende datasets gevonden, samen goed voor meer dan 41 terabyte aan data. Dat is alsof je de inhoud van 8.000 volledige bibliotheken op één harde schijf zou proppen.

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. De "Ik heb een nieuwe kaart nodig!"-Crisis

Hoewel er al duizenden landkaarten zijn, zeggen onderzoekers steeds vaker: "We hebben nog meer kaarten nodig!"

De Analogie: Het is alsof je in een stad woont waar iedereen een nieuwe set straten tekent, terwijl er al duizenden straten zijn die niemand kent of gebruikt. Mensen maken nieuwe wegen, maar ze vergeten de oude kaarten te bekijken.
Het Probleem: Veel onderzoekers maken liever hun eigen data dan dat ze bestaande data gebruiken. Dit is zonde, want het kost tijd en geld.

2. De Populaire Sterren en de Vergeten Dorpen

De auteurs keken naar wie er naar welke kaarten kijkt.

De Analogie: Stel je een feestje voor waar 90% van de gasten alleen maar naar één specifieke sterrenartiest kijkt (een paar heel beroemde datasets). De andere 400+ artiesten (datasets) staan in de hoek en worden genegeerd.
De Realiteit: De meeste wetenschappelijke artikelen citeren maar één of twee datasets. Ze gebruiken steeds dezelfde "bekende" kaarten en negeren de duizenden andere, misschien wel betere, opties. Dit maakt de wetenschap een beetje een echo-kamer.

3. De "Verloren" Kaarten (Beschikbaarheid)

Soms zijn de kaarten er wel, maar zijn ze onvindbaar of onbereikbaar.

De Analogie: Stel je voor dat je een recept wilt, maar het staat op een briefje dat in iemands persoonlijke lade ligt. Als die persoon verhuist, vergeten of stopt met koken, is het recept voor altijd weg.
Het Probleem: Veel datasets staan op persoonlijke Google Drive-accounts of OneDrive's van individuele onderzoekers. Zodra die persoon van universiteit verandert of stopt met werken, verdwijnt de data. Andere datasets zitten achter poorten met ingewikkelde formulieren of zijn alleen beschikbaar in landen waar je een specifiek telefoonnummer nodig hebt.
De Oplossing: Gebruik "publieke bibliotheken" (zoals Zenodo of HuggingFace) waar de data veilig blijft, ook als de oorspronkelijke maker weggaat.

4. De Talenbarrière (Bestandsformaten)

Zelfs als je de data vindt, is het vaak moeilijk te lezen.

De Analogie: Het is alsof iedereen in de stad een eigen taal spreekt. De één schrijft in het Frans, de ander in het Chinees, en weer een ander in een code die alleen hij begrijpt. Als je een recept wilt volgen, moet je eerst een vertaler vinden.
De Realiteit: Er is geen standaard. Data zit in honderden verschillende formaten (zoals .aedat, .hdf5, .csv, .mat). Soms moet je eerst een heel groot bestand downloaden om te zien wat erin zit, en soms is de tijd- of plaatsinformatie zo raar opgeslagen dat de computer er geen wijs uit raakt.

5. De "Gemaakte" Werelden (Gesimuleerde Data)

Een groot deel van de data is niet echt gefilmd, maar door computers gemaakt (gesimuleerd).

De Analogie: Het is alsof je een film maakt van een bos, maar in plaats van naar echte bomen te kijken, tekent een computer bomen op basis van wat hij denkt dat een bos is. Het ziet er mooi uit, maar de wind beweegt de bladeren misschien niet op de juiste manier.
Het Gevaar: Gesimuleerde data is geweldig om te oefenen (zoals een vliegsimulator), maar het is gevaarlijk om erop te vertrouwen voor nieuwe, echte uitdagingen. Als je een robot leert rijden op een gesimuleerde weg, kan hij in het echte leven struikelen over een steen die de simulator niet kende.

6. Het Gebrek aan Context (De "Stille" Camera's)

Normale camera's maken foto's waar je direct ziet wat er gebeurt. Neuromorfe camera's werken anders: ze zien alleen veranderingen.

De Analogie: Een gewone camera is als een schilderij: je ziet het hele tafereel. Een neuromorfe camera is als een stille film van ruis. Als er niets beweegt, zie je niets. Als je naar de ruige data kijkt, lijkt het op statische ruis op een oude TV. Je kunt niet zien of het een hond is of een auto, tenzij je de "context" (de beschrijving) erbij leest.
Het Probleem: Veel datasets hebben geen goede beschrijving. Zonder de tekst erbij is de data onbegrijpelijk.

🚀 De Gouden Tips voor de Toekomst

De auteurs geven een aantal adviezen om de stad van neuromorfe techniek beter te maken:

Gebruik bestaande kaarten: Maak geen nieuwe wegen als er al eentje is. Gebruik oude datasets, of pas ze een beetje aan in plaats van alles opnieuw te doen.
Zorg voor een veilige opslag: Stop je data niet in je persoonlijke lade. Gebruik publieke bibliotheken die voor altijd bestaan.
Spreek een standaard taal: Gebruik eenvoudige, open bestandsformaten die iedereen kan lezen, in plaats van ingewikkelde code.
Wees eerlijk over simulaties: Gebruik computer-simulaties om te oefenen, maar test je robot daarna altijd in de echte wereld.
Vertel een verhaal: Beschrijf je data uitgebreid. Zeg niet alleen "dit is data", maar leg uit: "Dit is een camera die een hond zag rennen in de regen, met de zon op de achtergrond."

Conclusie:
De wereld van neuromorfe techniek groeit snel, maar we moeten stoppen met het maken van nieuwe, onbereikbare landkaarten. We moeten gaan delen, hergebruiken en beschrijven. Dan kunnen we samen bouwen aan slimme robots die echt begrijpen hoe de wereld werkt.

Each language version is independently generated for its own context, not a direct translation.

Titel: LAND: Een longitudinale analyse van neuromorfe datasets

Auteurs: Gregory Cohen en Alexandre Marcireau
Publicatie: (Verwijst naar een review/analyse van neuromorfe datasets)

1. Het Probleem

Ondanks de meteorische groei van het aantal gepubliceerde neuromorfe datasets in de afgelopen tien jaar, blijft een significant deel van de onderzoekspapers concluderen dat er behoefte is aan nog meer en grotere datasets. De auteurs identificeren een fundamenteel "data-probleem" binnen het neuromorfe veld, gekenmerkt door:

Ontbrekende standaardisatie: Moeilijkheden bij het vinden, begrijpen en classificeren van datasets.
Toegankelijkheidsproblemen: Praktische obstakels bij het downloaden en gebruiken van data (bijv. gebroken links, persoonlijke opslag, restrictieve licenties).
Gebrek aan context: Neuromorfe data (gebeurtenisgebaseerd) mist de inherente visuele context die conventionele frames bieden, wat het moeilijk maakt om de taak of het doel van een dataset te begrijpen zonder uitgebreide metadata.
Opkomst van synthetische data: Een sterke toename in gesimuleerde data (via simulatie of video-naar-gebeurtenis conversie), wat risico's met zich meebrengt voor de validiteit van nieuwe toepassingen.
Herbruikbaarheid: Hoewel er veel data wordt gegenereerd, wordt deze niet effectief hergebruikt; onderzoekers creëren vaak nieuwe datasets in plaats van bestaande te gebruiken.

2. Methodologie

De auteurs hebben een longitudinale analyse uitgevoerd over een periode van tien jaar (2015–2025).

Dataverzameling: Er zijn 423 neuromorfe datasets geïdentificeerd en geanalyseerd, afkomstig uit 386 academische publicaties. De totale omvang bedraagt meer dan 41 TB aan data.
Analysecriteria:
- Herbruikbaarheid: Geanalyseerd via citaties van de bijbehorende papers (als proxy voor gebruik).
- Distributie: Categorisatie van hoe data wordt gedeeld (duurzaam, persoonlijk, beperkt, directe download).
- Toegankelijkheid: Analyse van bestandsformaten (aedat, HDF5, ROSbag, Numpy, etc.) en de complexiteit van data-extractie.
- Synthetische vs. Real Data: Onderscheid gemaakt tussen data van fysieke sensoren, monitor-conversies en volledig gesimuleerde data.
- Statistische Maatstaven: Gebruik van de Gini-coëfficiënt om de ongelijkheid in citaties te meten (welke datasets worden het meest gebruikt?).

3. Belangrijkste Bevindingen en Resultaten

A. Herbruikbaarheid en Citeringsongelijkheid

Hoewel het aantal datasets en citerende papers exponentieel is gestegen, is de herbruikbaarheid laag.
Mediaan: De mediaan van het aantal datasets die per paper worden geciteerd is 1. De meeste papers gebruiken slechts één dataset.
Gini-coëfficiënt: De verdeling van citaties is zeer ongelijk (waarde steeg naar 0,65 in 2025). Een klein aantal "top-datasets" (vaak survey-papers of zeer populaire benchmarks) krijgt het merendeel van de aandacht, terwijl de meeste nieuwe datasets genegeerd worden.
Conclusie: Onderzoekers neigen ernaar om nieuwe datasets te maken in plaats van bestaande te hergebruiken, wat leidt tot fragmentatie.

B. Distributie en Toegankelijkheid

Onbetrouwbare opslag: Een groot deel van de datasets wordt gedeeld via persoonlijke cloudopslag (Google Drive, OneDrive) of beperkte platforms. Deze links zijn vaak tijdelijk en afhankelijk van individuele onderzoekers, wat leidt tot "link rot".
Formaten: Er is een enorme verscheidenheid aan bestandsformaten (aedat, HDF5, ROSbag, Numpy, CSV, binair).
- Numpy groeit snel door de dominantie van Python/Deep Learning.
- ROSbag en HDF5 worden veel gebruikt voor grote, multimodale datasets (vooral in de robotica).
- Er is geen universele standaard voor de volgorde van data (bijv. $x, y, t, p$ vs. $t, x, y, p$ ) of tijdsreferentie (relatief vs. absoluut), wat automatisering bemoeilijkt.

C. Synthetische Data

Er is een sterke stijging in gesimuleerde data (van <1% naar >30% van het totale volume in sommige jaren).
Risico's: Gesimuleerde data (via tools zoals ESIM of v2e) mist vaak de echte ruis en fysieke beperkingen van sensoren. Dit kan leiden tot algoritmen die goed presteren in simulatie maar falen in de echte wereld ("Sim-to-Real gap").
Monitor-conversies: Datasets zoals N-MNIST, waarbij een camera een scherm scant, worden vaak als "echt" beschouwd, maar missen de dynamiek van een echte gebeurteniscamera en kunnen artefacten bevatten.

D. Gebrek aan Context

In tegenstelling tot conventionele beelden, is het moeilijk om de scène te begrijpen uit ruwe gebeurtenisdata zonder metadata.
De auteurs benadrukken dat neuromorfe data "redundante informatie" verwijdert, wat een kracht is voor sensoren, maar een nadeel is voor menselijke interpretatie en reproduceerbaarheid zonder gedetailleerde documentatie.

4. Kernbijdragen

LAND-tool (List of Available Neuromorphic Datasets): De auteurs hebben een interactieve, open-source catalogus ontwikkeld die bijna alle 423 datasets indexeert. Dit helpt onderzoekers om relevante data te vinden voordat ze nieuwe datasets gaan verzamelen.
Compendium van Best Practices: Een reeks aanbevelingen voor de gemeenschap om de kwaliteit en bruikbaarheid van datasets te verbeteren.
Kritische Analyse: Een diepgaande kwantitatieve analyse die de kloof tussen de productie van data en het effectieve gebruik ervan blootlegt.

5. Aanbevelingen (Best Practices)

De auteurs stellen een kader voor om de situatie te verbeteren:

Reduce, Re-use, Re-process: Gebruik bestaande datasets waar mogelijk. Pas bestaande datasets aan (annotaties toevoegen) in plaats van nieuwe te maken. Overweeg "meta-datasets" (combinaties van bestaande data) om bias te verminderen.
Duurzame Distributie: Gebruik persistente opslagplatforms (Zenodo, HuggingFace, IEEE DataPort) met DOI's. Vermijd persoonlijke cloudlinks.
Toegankelijkheid: Kies voor open, gestandaardiseerde formaten (zoals Numpy of HDF5) boven gesloten binaire formaten. Documenteer de datastructuur en tijdsreferenties expliciet.
Verantwoord Simuleren: Gebruik simulatie alleen voor bekende taken. Valideer gesimuleerde data altijd met echte data en wees voorzichtig met het toepassen van simulaties op nieuwe, onbekende toepassingen.
Beschrijf je Data: Lever uitgebreide metadata over de omgeving, camerabeweging, belichting en de specifieke taak. Dit is cruciaal omdat de data zelf geen visuele context biedt.

6. Significantie

Dit artikel is een mijlpaal voor het neuromorfe veld omdat het de eerste systematische, datagedreven evaluatie is van de staat van de datasets. Het identificeert dat de groei van het veld wordt belemmerd door een gebrek aan standaardisatie en herbruikbaarheid, niet door een gebrek aan data. Door de LAND-tool en de gestelde richtlijnen te introduceren, trachten de auteurs de gemeenschap te verschuiven van een "data-collectie" mentaliteit naar een "data-hergebruik" cultuur, wat essentieel is voor de robuustheid en schaalbaarheid van neuromorfe algoritmen en hardware.