Receding-Horizon Maximum-Likelihood Estimation of Neural-ODE Dynamics and Thresholds from Event Cameras

Each language version is independently generated for its own context, not a direct translation.

1. 주인공 소개: "눈이 빠른 이벤트 카메라" vs "일반 카메라"

일반 카메라 (프레임 기반): 마치 연속된 그림책을 보는 것과 같습니다. 1 초에 30 장이나 60 장의 정지된 사진을 찍어서 이어 붙입니다. 사물이 너무 빨리 움직이면 사진이 흐릿해지거나 (모션 블러), 밝기가 너무 강하면 눈이 부셔 아무것도 안 보입니다.
이벤트 카메라 (이 논문에서 사용): 이 카메라는 눈이 매우 예민한 사람과 같습니다.
- 화면이 완전히 정지해 있으면 "아무 일도 없어요"라고 침묵합니다.
- 하지만 밝기가 아주 조금만 변해도 (예: 눈이 깜빡이거나 물체가 스쳐 지나갈 때) 즉시 "여기서 뭔가 변했어요!"라고 신호를 보냅니다.
- 이 신호를 **'이벤트 (Event)'**라고 부릅니다. 이 카메라는 초당 수백만 번의 신호를 보내지만, 그중 99% 는 정지 상태일 때 보내지 않으므로 데이터가 매우 가볍고 빠릅니다.

2. 문제 상황: "왜 신호가 울렸을까?"

이 카메라는 "밝기가 변했다"고만 알려줄 뿐, **"얼마나 변했는지"**나 **"왜 변했는지"**는 알려주지 않습니다.

비유: imagine you are in a dark room with a friend who only whispers "Something moved!" whenever a shadow passes by. You don't know how fast the shadow moved or how big it was. You only know when it happened.
핵심 문제: 이 카메라는 밝기 변화가 일정 **문턱값 (Threshold)**을 넘을 때만 신호를 보냅니다. 그런데 이 문턱값이 카메라마다, 심지어 픽셀마다 다르고, 시간이 지나면 변하기도 합니다.
- 만약 이 문턱값을 정확히 모르면, "사물이 빠르게 움직였다"고 착각할 수도 있고, "사물이 느리게 움직였다"고 잘못 계산할 수도 있습니다.
- 기존 방법들은 이 문턱값을 고정된 값으로 가정하거나, 복잡한 계산을 하느라 실시간으로 따라가기 힘들었습니다.

3. 이 논문의 해결책: "지능적인 추측과 실시간 수정"

저자들은 이 문제를 해결하기 위해 세 가지 요소를 섞은 **'지능적인 추측 시스템'**을 만들었습니다.

① 신경 ODE (Neural ODE): "사물의 움직임을 상상하는 뇌"

비유: 마치 무용수의 동작을 상상하는 뇌입니다.
카메라가 보내는 불연속적인 신호 (이벤트) 들을 보고, "아, 저 사물은 지금 이런 궤적으로 움직이고 있구나"라고 연속적인 움직임을 상상합니다. 수학적으로 '신경 ODE'라는 도구를 써서, 사물이 어떻게 움직일지 예측하는 '뇌'를 훈련시킵니다.

② 마커드 포인트 프로세스 (Marked Point Process): "소음과 신호를 구분하는 귀"

비유: 콘서트 홀에서 박수 소리를 구분하는 귀입니다.
이벤트 카메라의 신호는 불규칙하게 들어옵니다. 이 시스템은 "이 신호가 진짜 사물의 움직임 때문인가, 아니면 카메라의 오작동 (문턱값 문제) 때문인가?"를 확률적으로 계산합니다.
특히, **문턱값 (Threshold)**을 고정된 값이 아니라, 배우게 되는 변수로 설정했습니다. 즉, "아, 이 카메라는 밝기 변화가 0.2 를 넘어야 신호를 보내는구나"라고 스스로 학습해서 찾아냅니다.

③ 이동하는 창 (Receding-Horizon Estimation): "과거를 잊고 현재에 집중하는 메모리"

비유: 새로운 책을 읽을 때, 너무 오래된 페이지는 넘겨버리는 것입니다.
이벤트 카메라는 시간이 지날수록 데이터가 쌓입니다. 모든 데이터를 다 기억해서 계산하면 컴퓨터가 멈춰버립니다.
이 방법은 가장 최근의 1~2 초 데이터만 '창 (Window)' 안에 넣고, 그 안에서만 계산을 반복합니다. 계산이 끝나면 그 창을 밀어내고 다음 데이터를 넣습니다.
이렇게 하면 **실시간 (Online)**으로 계산을 하더라도 컴퓨터가 무너지지 않고, 항상 최신 상태에 맞춰 파라미터를 수정할 수 있습니다.

4. 실제 실험 결과: "정확도와 속도의 균형"

시뮬레이션: 컴퓨터로 가상의 움직이는 공을 만들어 이벤트 카메라를 통해 관찰했습니다.
결과:
1. 움직임 예측: 사물이 어떻게 움직이는지 (속도, 방향) 를 매우 정확하게 찾아냈습니다.
2. 문턱값 찾기: 카메라의 미세한 설정 오차 (문턱값) 도 거의 완벽하게 복원해냈습니다.
3. 창의 크기 조절: "과거 데이터를 얼마나 많이 기억할까?"를 실험했습니다.
  - 너무 짧은 창을 쓰면 (과거를 너무 빨리 잊으면) 오차가 커집니다.
  - 너무 긴 창을 쓰면 (과거를 너무 많이 기억하면) 계산이 느려집니다.
  - 이 논문은 최적의 균형점을 찾아냈습니다.

5. 요약: 왜 이 연구가 중요한가요?

이 기술은 자율주행차, 드론, 로봇 등에 매우 유용합니다.

빠른 반응: 빛이 변하는 순간 바로 반응하므로, 급정거나 장애물 회피에 탁월합니다.
정밀한 보정: 카메라가 오래 쓰이거나 온도가 변해서 성능이 떨어지더라도, 시스템이 스스로 "내 문턱값이 변했구나"라고 알아서 고쳐줍니다.
실시간성: 과거 데이터 전체를 다시 계산하지 않고, 최근 데이터만 보고 바로 수정하므로 실시간 제어에 적합합니다.

한 줄 요약:

"이 논문은 이벤트 카메라가 보내는 불규칙한 신호를 받아, AI 가 사물의 움직임을 상상하고, 카메라의 미세한 오차까지 스스로 찾아내어 실시간으로 수정하는 똑똑한 시스템을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경:
이벤트 카메라 (Event Cameras) 는 프레임 기반 센서와 달리, 픽셀별 밝기 변화가 일정 임계값을 초과할 때만 비동기적으로 이벤트 (시간, 위치, 극성) 를 발생시킵니다. 이는 높은 동적 범위 (HDR) 와 낮은 지연 시간, 모션 블러 제거 등의 장점이 있습니다.

핵심 과제:
기존의 이벤트 처리 방식은 주로 이벤트를 고정된 시간 간격의 텐서 (예: 보크셀 그리드) 로 변환하여 딥러닝을 적용하거나, 특정 작업 (광학 흐름 등) 을 위한 서브rogate 목적함수를 최적화하는 데 집중했습니다. 그러나 연속 시간 동역학 (Continuous-time dynamics) 과 센서 파라미터 (특히 임계값) 를 원시 이벤트 스트림에서 직접 최대우도 (Maximum Likelihood) 방식으로 온라인으로 추정하는 것은 다음과 같은 어려움으로 인해 미해결 상태였습니다.

이력 의존성 (History Dependence): 각 픽셀의 이벤트 발생은 이전 이벤트 발생 시점 이후의 밝기 변화 누적에 의존합니다.
불확실한 임계값 (Threshold Uncertainty): 실제 센서의 대비 임계값 (Contrast Threshold) 은 고정된 상수가 아니며, 센서 설정, 온도, 노화 등에 따라 변할 수 있습니다. 이를 고정된 값으로 가정하면 동역학 추정에 편향 (Bias) 이 발생합니다.
계산 비용: 포인트 프로세스 (Point Process) 의 우도 함수에는 관측된 이벤트 합과 함께 '보상자 (Compensator)' 적분항이 포함되는데, 이는 모든 픽셀과 시간에 대해 계산해야 하므로 실시간 (온라인) 처리 시 계산 비용이 매우 큽니다.

목표:
이 논문은 이벤트 카메라의 비동기 스트림을 통해 신경 ODE (Neural ODE) 기반의 연속 시간 동역학 파라미터와 픽셀별 임계값을 동시에 온라인으로 추정하는 프레임워크를 제안합니다.

2. 방법론 (Methodology)

제안된 방법은 재귀적 수평 (Receding-Horizon) 최대우도 추정을 기반으로 하며, 다음과 같은 핵심 구성 요소로 이루어집니다.

가. 확률적 관측 모델 (Probabilistic Observation Model)

신경 ODE (Neural ODE): 은닉 상태 $x(t)$ 는 연속 시간 벡터장 $f_\vartheta(x(t), t)$ 에 의해 진화합니다. 이 상태는 미분 가능한 렌더러를 통해 예측된 로그 강도 (Log-intensity) 로 매핑됩니다.
마킹된 시계열 포인트 프로세스 (Marked Temporal Point Process): 이벤트 생성을 확률적으로 모델링합니다.
- 잔차 (Residual): 실제 로그 강도 변화와 임계값 간의 차이 $\phi = \Delta \hat{L} - p C(u)$ 를 정의합니다.
- 조건부 강도 (Conditional Intensity): 잔차가 0 에 가까워질수록 (임계값에 도달할수록) 이벤트 발생 확률이 높아지도록, Softplus 함수를 이용한 매끄러운 대리 함수 (Smooth Surrogate) 를 사용하여 조건부 강도 $\lambda(t)$ 를 정의합니다. 이는 하드 임계값 트리거를 미분 가능한 확률 모델로 대체합니다.
우도 함수 (Likelihood): 관측된 이벤트의 로그 우도는 이벤트 항 (Event term) 과 보상자 적분항 (Compensator integral, 무이벤트 구간 확률) 의 합으로 구성됩니다.

나. 재귀적 수평 추정기 (Receding-Horizon Estimator)

고정 지연 창 (Fixed-lag Window): 전체 데이터가 아닌, 최근 시간 창 $[\tau_m - \Delta, \tau_m]$ 내의 이벤트만을 사용하여 파라미터를 업데이트합니다.
경계 메모리 (Boundary Memory): 창 시작 시점 이전의 이력 정보를 각 픽셀당 두 개의 스칼라 (마지막 이벤트 시간, 해당 시점의 예측 로그 강도) 로 압축하여 저장합니다. 이를 통해 창 내부의 이벤트만 재생 (Replay) 하더라도 정확한 이력 의존성을 유지합니다.
연속성 분리 (Detachment): 창 시작 시점의 메모리는 그래프에서 분리 (Detach) 되어, 역전파가 현재 창 내부로만 제한되도록 하여 계산 그래프의 깊이를 일정하게 유지합니다.

다. 계산 효율성 최적화

몬테카를로 픽셀 서브샘플링 (Monte Carlo Pixel Subsampling): 보상자 적분항은 모든 픽셀에 대해 계산하는 것이 불가능하므로, 무작위로 샘플링된 $S$ 개의 픽셀에 대해 계산하여 전체 픽셀 수를 추정합니다.
온라인 업데이트: 매 시간 간격마다 창 내 이벤트에 대해 소수의 경사 하강 단계 (Gradient steps) 를 수행하여 파라미터를 점진적으로 갱신합니다.

3. 주요 기여 (Key Contributions)

미분 가능한 잔차 - 강도 매핑 (Differentiable Residual-to-Rate Mapping):
- 하드 임계값 트리거를 매끄러운 확률적 대리 함수로 변환하여, 포인트 프로세스 우도 내에서 동역학 파라미터와 픽셀별 임계값을 동시 (Jointly) 에 추정할 수 있게 했습니다.
재귀적 수평 업데이트 (Receding-Horizon Update):
- 오프라인 피팅에 비해 계산 비용을 크게 줄이면서도, 고정된 시간 창 내에서 소수의 반복 계산을 수행하여 스트리밍 (실시간) 환경에서 최대우도 추정을 가능하게 했습니다.
- 컴팩트한 픽셀 단위 메모리와 몬테카를로 샘플링을 통해 메모리 및 계산 복잡도를 제어했습니다.

4. 실험 결과 (Results)

실험 설정:

데이터: 합성 이벤트 카메라 데이터 (이동하는 가우시안 물체, 64x64 해상도).
목표: 신경 ODE 파라미터 ( $\alpha, \omega$ ) 와 픽셀별 임계값 맵 ( $C(u)$ ) 을 복원.
임계값 파라미터화: 4096 개의 픽셀 임계값을 직접 학습하는 대신, 1 개의 전역 오프셋과 8x8 격자의 coarse field 를 학습하여 65 개의 파라미터로 축소했습니다.

주요 결과:

파라미터 수렴:
- 동역학 파라미터 ( $\alpha, \omega$ ) 는 초기 전이 단계를 거친 후 실제 값 (Ground Truth) 에 수렴했습니다.
- 픽셀별 임계값 맵도 전체적인 공간 구조를 잘 복원했으나, 이벤트가 거의 발생하지 않는 영역 (물체가 지나가지 않은 픽셀) 에서는 오차가 존재했습니다.
수평 길이 (Horizon Length) 의 영향:
- 짧은 창 (H ≤ 13): 동역학 파라미터, 특히 $\omega$ 의 추정 오차가 매우 컸습니다.
- 충분히 긴 창 (H ≥ 14): 오차가 급격히 감소하여 안정적으로 수렴했습니다.
- 임계값 추정: 임계값 맵의 오차는 창 길이에 따라 비교적 일정했으나, 긴 창에서 약간 더 정확해졌습니다.
계산 비용:
- 창 길이가 증가함에 따라 업데이트 시간이 선형적으로 증가했으나, 업데이트 주기 (0.4 초) 보다 항상 짧아 실시간 처리가 가능함을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이론적 의의: 이벤트 카메라의 비동기적이고 이력 의존적인 특성을 최대우도 추정 (MLE) 프레임워크에 체계적으로 통합했습니다. 특히, 센서 파라미터 (임계값) 를 고정값이 아닌 학습 가능한 파라미터로 다룬 점은 센서 보정 없이도 정확한 동역학 추정이 가능함을 보여줍니다.
실용적 의의:
- 온라인 적응: 시스템 식별 (System Identification) 및 피드백 제어와 같이 실시간으로 동역학을 파악해야 하는 애플리케이션에 적합합니다.
- 계산 효율성: 재귀적 수평 방식과 몬테카를로 샘플링을 통해 고해상도 이벤트 스트림에서도 실시간 추정이 가능하도록 설계되었습니다.
향후 과제: 실제 하드웨어 이벤트 카메라 데이터에 대한 적용, 더 복잡한 동역학 모델로의 확장, 그리고 다양한 조명 조건에서의 강건성 검증이 필요합니다.

이 논문은 이벤트 카메라를 단순한 센서가 아닌, 연속 시간 확률적 과정의 관측자로 재해석하고, 이를 통해 센서 파라미터와 시스템 동역학을 동시에 학습하는 새로운 패러다임을 제시했다는 점에서 의미가 큽니다.