Encoding Robust Topological Signatures for Hyperdimensional Computing

손글씨 숫자, 예를 들어 종이 위의 숫자를 컴퓨터가 인식하도록 가르친다고 상상해 보세요. 일반적으로 컴퓨터는 이미지 전체를 구성하는 모든 단일 픽셀(작은 점) 을 살펴보고 잉크가 어떻게 생겼는지 정확히 암기하는 방식으로 이를 수행합니다.

이 논문은 이러한 '픽셀 단위' 접근 방식이 얼굴의 주근깨 패턴을 정확히 기억함으로써 친구를 알아보는 것과 같다고 주장합니다. 만약 그 친구가 모자를 쓰거나, 일광욕을 하거나, 다른 조명 아래에 서 있다면 컴퓨터는 혼란을 겪고 실패합니다. 이는 너무 취약합니다.

저자들은 **초차원 컴퓨팅 (Hyperdimensional Computing, HDC)**이라는 새로운 방식으로 컴퓨터를 가르칠 것을 제안합니다. 픽셀을 보는 대신, 컴퓨터에게 모양의 골격과 그 구멍을 보도록 가르치는 것입니다.

다음은 그들의 방법이 간단한 개념으로 분해된 작동 원리입니다:

1. '모양 탐정' 대 '픽셀 사진가'

일반적인 컴퓨터 비전 모델을 픽셀 사진가로 생각하세요. 이 모델은 모든 점의 스냅샷을 찍습니다. 사진을 회전시키거나 이미지에 정적 (노이즈) 을 추가하면 점들의 패턴이 완전히 바뀌어 사진가는 길을 잃게 됩니다.

저자들의 방법은 모양 탐정처럼 작동합니다. 탐정은 점들을 세는 대신 두 가지 간단한 질문을 던집니다:

외곽선은 무엇인가? (숫자의 큰 모양).
구멍은 어디에 있는가? (숫자 모양 내부의 빈 공간, 예를 들어 '8'의 중앙 구멍이나 '6'의 윗부분).

수학적으로 이러한 '구멍'은 **위상적 원시 요소 (topological primitives)**라고 불립니다. 구멍의 놀라운 점은 끈질기다는 것입니다. '8' 모양의 고무줄을 늘리거나, 회전시키거나, 축소하더라도 여전히 두 개의 구멍을 가지고 있습니다. 모양이 흔들리더라도 구멍의 수는 변하지 않습니다.

2. '신분증' 만들기

이를 작동시키기 위해 컴퓨터는 모든 이미지에 대한 특별한 '신분증'(초벡터) 을 만듭니다. 이는 세 단계로 이루어집니다:

단계 A: 외곽 프레임 (실루엣):
컴퓨터는 숫자의 주요 외곽선을 봅니다. 기울어져 있거나 확대된 상태에서도 숫자를 인식할 수 있도록 **제르니케 모멘트 (Zernike moments)**라는 수학적 도구를 사용합니다.
- 비유: 건물의 사진을 찍는다고 상상해 보세요. 카메라를 회전시키면 건물이 다르게 보입니다. 하지만 건물의 정확한 지붕 각도가 아니라 '질량 분포'(왼쪽 벽과 오른쪽 벽의 무게 비율) 로 건물을 설명한다면, 카메라가 회전하더라도 여전히 건물을 알아볼 수 있습니다. 이 단계는 이미지를 회전하거나 크기를 조절해도 변하지 않는 외곽 모양에 대한 설명을 생성합니다.
단계 B: 내부 구멍 (위상):
컴퓨터는 숫자 내부의 구멍을 찾습니다. 구멍의 모양과 바깥쪽 가장자리와의 상대적 위치를 측정합니다.
- 비유: 도넛을 생각해 보세요. 도넛이 크거나 작거나 기울어져 있더라도 항상 중앙에 하나의 구멍이 있습니다. 컴퓨터는 도넛 가장자리의 모양이 얼마나 지저분하든 상관없이 "아, 이 모양은 중앙에 구멍이 있구나"라고 학습합니다.
단계 C: '신뢰 점수' (신뢰도 가중치):
때로는 이미지가 너무 더러워서 (노이즈가 심해서) 컴퓨터가 외곽선을 잘 볼 수 없지만 구멍은 여전히 볼 수 있습니다. 다른 경우에는 외곽선은 선명하지만 구멍은 흐릿할 수 있습니다.
시스템은 각 단서에 '신뢰 점수'를 부여하도록 학습합니다. 이미지가 노이즈가 많으면 구멍 개수를 더 신뢰하고, 이미지가 선명하면 외곽선을 더 신뢰합니다. 그런 다음 이러한 단서들을 하나의 최종 답변으로 결합합니다.

3. 이것이 중요한 이유: '노이즈' 테스트

저자들은 손글씨 숫자 데이터셋인 MNIST 를 사용하여 표준 '픽셀 사진가'와 최신 딥러닝 모델 (Compact CNN) 에 대해 그들의 '모양 탐정'을 테스트했습니다.

그들은 깨끗한 이미지만으로 테스트한 것이 아니라, 컴퓨터에 '손상'을 가했습니다:

가우시안 노이즈: 이미지에 TV 정적을 추가하는 것과 같습니다.
소금 - 후추 노이즈: 종이에 검은색과 흰색 반점을 뿌리는 것과 같습니다.
확대/축소: 숫자를 거대하게 또는 작게 만드는 것입니다.
잘라내기: 검은색 사각형으로 숫자의 일부를 가리는 것입니다.

결과:

픽셀 사진가 (Naive HDC): 노이즈를 추가하거나 숫자를 회전시키면 정확도가 급락했습니다. 깨끗한 이미지에서는 95% 의 정확도를 보였으나 노이즈가 있는 이미지에서는 10% 미만으로 떨어졌습니다. 이는 친구를 정확히 주근깨 패턴으로만 알아보는 사람과 같습니다. 주근깨가 모자에 가려지면 누구인지 알지 못합니다.
딥러닝 모델 (CNN): 깨끗한 숫자를 인식하는 데는 뛰어났습니다 (99% 정확도). 하지만 노이즈가 추가되면 무너져 내려 거의 무작위 추측 수준 (약 11%) 으로 떨어졌습니다.
모양 탐정 (위상 기반 HDC): 강하게 버텨냈습니다. 심한 노이즈나 회전에도 불구하고 높은 정확도 (약 70~88%) 를 유지했습니다. 노이즈에 대처하기 위해 재학습이 필요하지 않았습니다. '구멍과 외곽선'을 보는 방식 자체가 자연스럽게 혼란에 저항력이 있었습니다.

결론

이 논문은 컴퓨터에게 단순히 원시 픽셀이 아닌 위상적 특징(구멍과 전체적인 모양과 같은) 을 명시적으로 보도록 가르침으로써 훨씬 더 튼튼하고 신뢰할 수 있는 AI 를 구축할 수 있다고 주장합니다.

이는 특정 얼굴의 사진을 암기하는 것과 "이 사람은 두 개의 눈과 코를 가지고 있다"는 사실을 암기하는 것의 차이입니다. 어둠 속에서나 기이한 각도에서 그 사람의 사진을 찍으면 사진은 변하지만, 그들이 두 개의 눈과 코를 가지고 있다는 사실은 여전히 참입니다. 이 접근 방식은 컴퓨터가 현실 세계의 '노이즈'에 대해 견고하게 만듭니다.

기술 요약: 초차원 계산을 위한 강건한 위상 서명 인코딩

문제 제기
초차원 (HD) 계산은 엣지 학습을 위한 딥러닝 네트워크의 자원 효율적 대안을 제공하며, 빠른 프로토타입 기반 추론과 온라인 업데이트 호환성을 특징으로 합니다. 그러나 위치 벡터와 강도 벡터를 바인딩하는 단순한 픽셀 기반 표현에 의존하는 표준 HD 인코더는 심각한 취약성을 보입니다. 논문의 서론에서 입증된 바와 같이, 회전, 가우시안 노이즈, 소금 - 후추 노이즈, 또는 줌 (zooming) 과 같은 작은 분포 변화는 MNIST 데이터셋에서 가우시안 노이즈 시 95% 에서 9% 로 정확도가 치명적으로 하락하는 결과를 초래할 수 있습니다. 딥러닝 시스템이 효율성을 깊이로 대체해 왔음에도 불구하고, 여전히 구조화된 교란에 취약합니다. 다루어진 핵심 문제는 HD 프레임워크에 명시적인 위상 인코딩이 부재하여, 국소 픽셀 통계는 교란시키지만 전역 형태 구조는 보존하는 손상들에 대한 강건성이 제한된다는 점입니다.

방법론
저자들은 이진화된 형태에서 이산적 위상 원시 (primitives) 를 명시적으로 추출하여 고차원 초벡터에 인코딩하는 "위상 유도 HD (Topology-guided HD)" 프레임워크를 제안합니다. 방법론은 다음 단계들을 통해 진행됩니다:

원시 추출: 이미지는 처리되어 원시들의 다중집합을 식별합니다: 외곽 윤곽선 (전역 형태) 과 내부 구멍 (위상 특징).
RTS-불변 기술자:
- 외곽 형태: 외곽 윤곽선은 형태의 주축과 질량 중심으로부터 유도된 회전, 병진, 크기 (RTS) 표준 좌표계를 사용하여 정규화됩니다. 그런 다음 형태는 공간 피라미드 저니 (Zernike) 모멘트 기술자를 사용하여 기술됩니다. 이는 회전 불변성을 위한 저니 크기 (global mass distribution) 와 그리드 분할을 통한 국소 공간 배치 (local spatial layout) 를 결합하여 전역 기하학과 거친 구조적 세부 사항을 모두 포착합니다. 또한 전역 모멘트에서 종종 놓치는 국소 에지 구조를 포착하기 위해 방향성 기울기 히스토그램 (HOG) 이 포함됩니다.
- 구멍: 각 감지된 구멍에 대해 방법은 다음을 계산합니다:
  - 상대 기하학: 구멍의 질량 중심은 외곽 형태의 프레임에 대한 RTS-표준 좌표로 매핑됩니다.
  - 내재적 형태: 구멍의 경계는 재샘플링되고 매개변수화됩니다. 방사형 서명이 계산되며, 그 푸리에 크기 (DC 성분을 제외) 는 회전 불변 형태 기술자로 사용됩니다.
HD 인코딩:
- 각 원시는 무작위 투영과 역할 바인딩 (유형별 역할 벡터 사용) 을 통해 이진 초벡터 ( $\{-1, +1\}^D$ ) 로 매핑됩니다.
- 가변 카디널리티의 구멍 집합은 단일 이미지 초벡터를 형성하기 위해 순열 불변 번들링 (요소별 합계 다음 부호 임계값) 을 사용하여 집계됩니다.
신뢰도 가중치: 신뢰할 수 없는 단서를 과도하게 가중치하지 않도록, 시스템은 HOG 채널에 상대적으로 저니 및 구멍 채널에 대한 음이 아닌 신뢰도 가중치 ( $\alpha, \beta$ ) 를 학습합니다. 이러한 가중치는 개별 특징 채널의 코사인 유사도 점수를 융합하여 검증 세트에서 최적화됩니다.
분류: 분류는 프로토타입 학습을 통해 수행되며, 여기서 클래스 프로토타입은 훈련 데이터에서 누적되어 온라인으로 업데이트됩니다.

주요 기여

명시적 위상 인코딩: 이 논문은 이산적 위상 원시 (특히 구멍과 그들의 상대 기하학) 를 HD 계산 패러다임에 명시적으로 통합한 첫 번째 사례를 제시합니다.
RTS-안정 기술자: 전역 형태를 위한 저니 모멘트와 구멍 형태를 위한 푸리에 기술자를 활용하여, 구성상 회전, 병진, 크기에 수학적으로 불변인 기술자를 구축합니다.
위상을 통한 강건성: 이 연구는 위상 특징 (구멍 수, 연결성, 상대 배치) 이 국소 외관이 손상되었을 때 특히 픽셀 기반 특징에 보완적인 정보를 제공함을 입증합니다.
경량 온라인 학습: 이 프레임워크는 프로토타입이 처음부터 재학습 없이 적응할 수 있도록 하는 경량 온라인 훈련이라는 HD 의 핵심 이점을 유지합니다.

결과
실험은 회전, 가우시안 노이즈, 소금 - 후추 노이즈, 컷아웃 (cutout), 그리고 줌과 같은 통제된 손상 하에서 MNIST 및 EMNIST 데이터셋에서 수행되었습니다.

단순 HD 대비: 위상 유도 HD 는 모든 손상 유형에 걸쳐 단순 픽셀 기반 HD 기준선보다 현저히 우수한 성능을 발휘합니다. 예를 들어, 가우시안 노이즈 ( $\sigma=0.1$ ) 하에서 단순 HD 정확도는 약 7% 로 하락하는 반면, 제안된 방법은 (온라인 훈련 전) 약 83%, (훈련 후) 약 89% 를 유지합니다.
경량 CNN 대비: 깨끗한 데이터로 훈련된 경량 CNN 과 비교할 때:
- 깨끗한 데이터: CNN 은 깨끗한 데이터셋에서 더 높은 정확도를 달성합니다 (예: MNIST 에서 99.1% 대 위상 유도 HD 의 97.68%).
- 손상된 데이터: 위상 유도 HD 는 현저히 우수한 강건성을 보여줍니다. 가우시안 노이즈 ( $\sigma=0.1$ ) 하에서 CNN 은 우연 수준 (~11%) 으로 붕괴되는 반면, 위상 유도 HD 는 약 89% 의 정확도를 유지합니다. 소금 - 후추 노이즈 및 컷아웃 가림에 대해서도 유사한 경향이 관찰됩니다.
- EMNIST: 더 복잡한 EMNIST 문자 데이터셋에서 위상 유도 HD 는 노이즈 조건 하에서 CNN 을 크게 능가합니다 (예: 훈련 전 가우시안 노이즈 하에서 57.7% 대 3.84%).

의의 및 주장
이 논문은 명시적 위상 구조가 강건한 HD 표현을 달성하는 실용적인 경로라고 주장합니다. 그 의의는 HD 계산이 경쟁력 있는 깨끗한 데이터 정확도를 달성하면서도 딥러닝 모델에 비해 픽셀 수준의 손상들에 대해 "현저히 더 강력한 강건성"을 제공하며, 손상 특정 데이터 증강 없이 이를 가능하게 함에 있습니다. 저자들은 위상 (위상동형) 에 내재된 불변성 속성을 활용함으로써 시스템이 국소 픽셀 통계가 심각하게 저하되더라도 클래스 분리성을 유지할 수 있다고 주장합니다.

한계
저자들은 이 방법이 초기 이진화 및 원시 추출 단계의 안정성에 의존함을 인정합니다. 심각한 노이즈나 낮은 대비는 파편화된 경계나 가짜 구멍을 초래하여 하류 정확도에 부정적인 영향을 미칠 수 있습니다. 또한, 이론적 보장은 유사 변환 (RTS) 을 다루지만 비강체 변형, 원근 효과, 또는 배경 혼란을 수반하는 무거운 도메인 이동에는 확장되지 않습니다. 전처리 단계 (분할 및 윤곽선 추출) 는 구현에 따라 잠재적인 계산 병목 현상으로 지적됩니다.

1. '모양 탐정' 대 '픽셀 사진가'

2. '신분증' 만들기

3. 이것이 중요한 이유: '노이즈' 테스트

결론

기술 요약: 초차원 계산을 위한 강건한 위상 서명 인코딩

유사한 논문