Receding-Horizon Maximum-Likelihood Estimation of Neural-ODE Dynamics and Thresholds from Event Cameras

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een camera hebt die niet werkt zoals een gewone camera. Een gewone camera neemt een foto, een heel plaatje, elke fractie van een seconde. Maar deze speciale camera, een Event Camera, is als een super-snel, slim waarnemend wezen dat alleen "schreeuwt" als er iets verandert.

Als er een beweging is, of een lichtflits, schreeuwt die pixel: "Hey! Hier is iets veranderd!" En dat doet het met microseconden precisie. Het is razendsnel, ziet in het donker en in de felle zon, en maakt geen wazige beelden.

Het probleem is echter: hoe vertaal je die duizenden losse schreeuwen terug naar een begrijpelijk verhaal? Hoe weet je waar het object was, hoe snel het bewoog, en waarom de camera precies op die momenten schreeuwde?

Deze paper beschrijft een slimme manier om dat verhaal te reconstrueren, alsof je een detective bent die een raadsel oplost.

1. Het Raadsel: De "Drempel"

De camera werkt op een simpele regel: een pixel schreeuwt pas als de verandering in helderheid een bepaalde drempel (een soort "minimum niveau") heeft bereikt.

Het probleem: We weten die drempel niet precies. Soms is hij lager, soms hoger, en hij kan per pixel verschillen (zoals of je een luie of een alerte bewaker hebt). Als we die drempel verkeerd inschatten, begrijpen we de beweging van het object verkeerd.
De oplossing van de auteurs: Ze behandelen die drempel niet als een vast getal, maar als een geheime schat die ze samen met de beweging moeten vinden. Ze vragen zichzelf: "Welke drempel en welke beweging passen het beste bij al die schreeuwen?"

2. De Detective: De "Neural ODE"

Om de beweging te begrijpen, gebruiken de auteurs een wiskundig model dat ze een Neural ODE noemen.

De analogie: Stel je voor dat je een bal gooit. Je kunt de baan van de bal voorspellen met natuurwetten. Maar in de echte wereld is het soms onvoorspelbaar of er een windvlaag komt. De Neural ODE is als een slimme, lerende wind. Hij leert continu hoe het object zich beweegt, zonder dat we de exacte natuurwetten van tevoren hoeven te kennen. Hij "droomt" een continue beweging in zijn hoofd, terwijl de camera alleen de schreeuwen (de gebeurtenissen) ziet.

3. Het Oplossen: De "Terugtrekkende Horizon"

Nu komt het slimme deel. Als je duizenden schreeuwen hebt, is het heel lastig om alles in één keer te berekenen. Het zou je computer laten crashen.

De analogie: Stel je voor dat je een lange film kijkt en je moet elke seconde de plot analyseren. Dat is te veel werk. In plaats daarvan kijken we alleen naar het laatste stukje film (bijvoorbeeld de laatste 10 seconden).
Hoe het werkt: De auteurs gebruiken een methode die ze "Receding-Horizon" noemen.
1. Ze kijken naar een klein venster van recente gebeurtenissen.
2. Ze passen hun theorie over de beweging en de drempel een beetje aan om dat venster beter te verklaren.
3. Dan schuift dat venster een stukje op (zoals een schuifraam), en ze kijken naar de volgende 10 seconden.
4. Ze vergeten de oude details die te ver weg zijn, maar houden de essentie vast.

Dit zorgt ervoor dat de computer niet overbelast raakt en dat het systeem live (online) kan leren terwijl de camera draait.

4. De "Monte Carlo" Gok

Om te weten hoe goed hun theorie is, moeten ze berekenen hoeveel schreeuwen er niet zijn gekomen (de "stilte" tussen de schreeuwen). Dat is normaal gesproken een enorme berekening voor elke pixel op het scherm.

De analogie: In plaats van elke pixel op het scherm te tellen (zoals elke boom in een groot bos), kijken ze naar een willekeurige steekproef. Ze kijken naar 512 willekeurige pixels en zeggen: "Als het hier goed zit, is het waarschijnlijk overal goed." Dit noemen ze een Monte Carlo-benadering. Het is een slimme gok die tijd bespaart zonder de nauwkeurigheid te verliezen.

Samenvatting in één zin

De auteurs hebben een slimme detective-bedacht die, door alleen te kijken naar de "schreeuwen" van een snelle camera, tegelijkertijd leert hoe een object beweegt én wat de gevoeligheid van de camera is, door steeds maar een klein stukje van de tijd te analyseren en zich niet te laten verlammen door de enorme hoeveelheid data.

Waarom is dit cool?
Omdat het betekent dat robots en auto's in de toekomst sneller en slimmer kunnen reageren op hun omgeving, zelfs in extreme situaties waar gewone camera's het laten afweten. Ze kunnen de wereld begrijpen, niet door plaatjes te kijken, maar door de "momenten" van verandering te horen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Receding-Horizon Maximum-Likelihood Estimation of Neural-ODE Dynamics and Thresholds from Event Cameras", geschreven in het Nederlands.

Probleemstelling

Event cameras (zoals de Dynamic Vision Sensor) genereren asynchrone stromen van helderheidsveranderingen ("events") met microseconde-tijdstippen. Elk pixel triggert een event wanneer de geaccumuleerde verandering in log-intensiteit sinds de vorige event een bepaalde drempelwaarde (contrast threshold) overschrijdt.

De uitdagingen bij het schatten van continue dynamica uit deze data zijn:

Onbekende drempels: De effectieve contrast-drempel is vaak niet exact bekend, kan per pixel variëren en afhankelijk zijn van omstandigheden (zoals temperatuur of sensorveroudering). Het behandelen ervan als een vaste constante introduceert bias in de dynamica-schatting.
Geschiedenisafhankelijkheid: De generatie van events is afhankelijk van de geschiedenis van elke individuele pixel (de referentie wordt gereset na elke event).
Continue tijd vs. Discrete data: Veel bestaande methoden aggregeren events in vaste tijdsintervallen (voxel grids), wat de continue tijdsstructuur verliest en geen genormaliseerde waarschijnlijkheidsverdeling (likelihood) over de ruwe tijdstippen biedt.
Berekeningskosten: Het maximaliseren van de likelihood vereist het integreren van een "compensator" term over de volledige pixelruimte en tijd, wat computationally zeer duur is voor lange streams, vooral in online settings.

Het doel van dit werk is het ontwikkelen van een online maximum-likelihood estimator voor continue dynamica (gemodelleerd als een Neural ODE) en de onbekende pixel-afhankelijke contrast-drempels, direct vanuit de ruwe event-stroom.

Methodologie

De auteurs stellen een raamwerk voor dat drie kerncomponenten combineert:

1. Modellering van de Dynamica en Observatie

Latente Dynamica: De onderliggende toestand $x(t)$ volgt een Neural Ordinary Differential Equation (Neural ODE):
$\frac{dx(t)}{dt} = f_\vartheta(x(t), t)$
waarbij $\vartheta$ de te leren parameters zijn (bijv. fysieke dynamica).
State-to-Image Model: De toestand wordt omgezet in een voorspelde log-intensiteit $\hat{L}(u, t)$ via een differentieerbare renderer $R$ .
Event Generatie als Marked Point Process: Events worden gemodelleerd als een geschiedenisafhankelijk gemarkeerd puntproces. De conditionele intensiteit $\lambda_{u,p}(t)$ (de snelheid waarmee een event met pixel $u$ en polariteit $p$ optreedt) wordt bepaald door de "residu" tussen de voorspelde intensiteitsverandering en de drempel:
$\phi_{u,p}(t) = \Delta\hat{L}(u, t) - p \cdot C_\psi(u)$
Hierbij is $C_\psi(u)$ de onbekende, pixel-afhankelijke drempel.
Zachte Drempel (Surrogate): Om differentiatie mogelijk te maken, wordt de harde drempelvergelijking vervangen door een gladde, positieve intensiteitsfunctie (gebaseerd op de softplus-functie). Deze functie piekt wanneer het residu dicht bij nul is (d.w.z. wanneer de drempel wordt bereikt).

2. Maximum-Likelihood Schatting

De log-likelihood van de waargenomen event-stroom bestaat uit twee delen:

Een som over de waargenomen events (log-intensiteit op de tijdstippen).
Een compensator-term (integral over de totale intensiteit $\Lambda(t)$ over de tijd en alle pixels), die zorgt voor correcte normalisatie.

3. Receding-Horizon Schatting (Online Optimalisatie)

Om de berekeningskosten te beheersen en online te werken, gebruiken de auteurs een receding-horizon (schuivend venster) strategie:

Venster: In plaats van de hele geschiedenis te optimaliseren, wordt er geoptimaliseerd over een vast tijdsvenster $[\tau_m - \Delta, \tau_m]$ .
Boundary Memory: Om de geschiedenis te behouden zonder de volledige grafiek te herrekenen, wordt voor elke pixel slechts twee waarden opgeslagen: de tijd van de laatste event en de geschatte log-intensiteit op dat moment. Deze waarden worden gebruikt als startconditie voor het venster.
Monte Carlo Benadering: De integratie over alle pixels in de compensator-term is te duur. Dit wordt benaderd door Monte Carlo subsampling: op willekeurige tijdstippen worden een subset van pixels ( $S$ ) gesampled om de totale intensiteit te schatten.
Adjoint Sensitivity: Voor het berekenen van de gradiënten van de Neural ODE parameters wordt de adjoint-methode gebruikt, waarbij de gradiënt "terugwaarts" wordt gepropageerd, inclusief sprongen op de tijdstippen van de events.

Belangrijkste Bijdragen

Differentieerbare Residu-naar-Rate Mapping: De auteurs introduceren een gladde surrogate voor contrast-drempel triggering binnen een likelihood-model. Dit maakt het mogelijk om dynamica-parameters en pixel-afhankelijke drempels gezamenlijk te schatten via gradient-based learning.
Efficiënte Receding-Horizon Update: Ze stellen een methode voor die een vast aantal gradiëntstappen uitvoert op een schuivend tijdsvenster. Dit beperkt de backpropagation-tijd en maakt online training haalbaar, in tegenstelling tot dure offline fitting.
Compacte Geheugenstructuur: Door per pixel slechts twee scalars op te slaan (laatste event-tijd en intensiteit), wordt de geschiedenisafhankelijkheid efficiënt beheerd zonder de volledige data-opslag te vereisen.

Resultaten

De methode werd geëvalueerd op een synthetische dataset met een bewegend Gaussian-blob object:

Parameterherstel: De estimator slaagde erin om zowel de dynamica-parameters ( $\alpha, \omega$ ) van de Neural ODE als de complexe, pixel-afhankelijke drempelkaart nauwkeurig te herstellen.
Ablatie van Vensterlengte (Horizon):
- De nauwkeurigheid van de dynamica-schatting (vooral voor de frequentie-parameter $\omega$ ) is sterk afhankelijk van de vensterlengte.
- Korte vensters ( $H \leq 13$ ) leidden tot grote fouten.
- Zodra het venster lang genoeg was ( $H \geq 14$ ), daalde de fout met ordes van grootte en convergeerde het naar de ground truth.
- De drempel-schatting was minder gevoelig voor de vensterlengte, maar verbeterde lichtjes bij langere vensters.
Efficiëntie: De berekeningstijd per update bleef binnen de limiet van het update-interval (0.4s), wat bewijst dat de methode geschikt is voor real-time toepassing.

Betekenis en Toekomstperspectief

Dit werk is significant omdat het een brug slaat tussen event-based vision en continue-tijd systeemidentificatie.

Het lost het probleem op van onbekende sensor-drempels, wat vaak een bron van bias is in bestaande methoden.
Het biedt een wiskundig onderbouwde, probabilistische framework (Maximum Likelihood) in plaats van heuristische of surrogate-objectieven (zoals contrast-maximalisatie).
De voorgestelde receding-horizon aanpak maakt het mogelijk om complexe dynamische modellen (Neural ODEs) online te trainen op ruwe, asynchrone data, wat essentieel is voor toepassingen zoals robotica, SLAM en snelle bewegingsdetectie waar lage latentie en adaptiviteit cruciaal zijn.

Samenvattend presenteert dit artikel een robuust en rekenefficiënt raamwerk om zowel de fysieke dynamica van een scène als de interne sensorparameters van een event camera gelijktijdig en continu te leren.