KANs need curvature: penalties for compositional smoothness

이 논문은 쉬운 언어와 일상적인 비유를 사용하여 설명합니다.

문제: "거친" 해결책

로봇에게 사인파처럼 매끄럽고 흐르는 곡선을 그리도록 가르치려 한다고 상상해 보세요. 여러분은 KAN(콜모고로프-아르놀드 네트워크)이라는 특별한 도구 세트를 로봇에게 줍니다. 이 도구들은 블랙박스처럼 작동하는 표준 AI 와 달리, 로봇이 그림을 그리는 방식을 정확히 볼 수 있게 해준다는 점에서 훌륭합니다. 각 "붓질"(활성화 함수) 은 가시적이고 이해할 수 있습니다.

하지만 논문은 결함을 발견했습니다. 이 로봇들이 데이터에 완벽하게 적합하려고 할 때, 종종 "떨림" 현상을 겪습니다. 매끄러운 선을 그리는 대신, 마치 날카로운 산맥이나 낙서처럼 보이는 거친 선을 그립니다. 데이터 점에는 완벽하게 적합하지만, 기대했던 매끄러운 곡선과는 전혀 다릅니다.

저자들은 이를 **"고곡률 진동"**이라고 부릅니다. 쉬운 말로 번역하면: 로봇이 과도하게 생각하며 그림에 불필요한 흔들림과 꺾임을 추가한다는 것입니다.

이전 해결책: "게으른" 패널티

이전에는 과학자들이 표준적인 "페널티"를 사용하여 이 떨림을 막으려 했습니다. 이는 마치 교사에게 로봇에게 "너무 많은 잉크를 쓰지 마라"고 말하는 것과 같습니다.

문제: 이 페널티는 얼마나 많은 잉크가 쓰였는지 (크기) 만 확인하고, 어떻게 쓰였는지는 확인하지 않습니다.
결과: 로봇은 아주 적은 잉크로 매끄러운 선을 그릴 수도 있고, 아주 적은 잉크로 미친 듯이 거친 낙서를 그릴 수도 있습니다. 이전 페널티는 이 차이를 구별하지 못합니다. 마치 교사가 에세이의 단어 수만 세고 문장이 의미 있는지 읽지 않는 것과 같습니다. 로봇은 페널티가 "거침"을 보지 못하기 때문에 거친 선을 그리기를 계속합니다.

새로운 해결책: "매끄러움" 패널티

저자들은 더 똑똑한 새로운 페널티를 고안했습니다. 단순히 잉크 양을 세는 대신, 이 새로운 페널티는 선의 **"굽힘 에너지"**를 측정합니다.

비유: 유연한 자를 구부리는 상황을 상상해 보세요. 부드럽게 호를 그리며 구부리면 아주 적은 노력만 들지만, 날카로운 지그재그로 비틀려고 하면 많은 노력과 에너지가 듭니다.
해결책: 새로운 페널티는 로봇이 선을 구부리는 데 드는 에너지 양에 따라 "수수료"를 부과합니다. 로봇이 거친 지그재그를 그리려고 하면 수수료가 엄청나게 큽니다. 매끄러운 곡선을 그리면 수수료는 낮습니다.
결과: 로봇은 수수료를 낮게 유지하려면 매끄러운 선을 그려야 한다는 것을 배우게 됩니다. 논문은 이 새로운 페널티를 사용하면 로봇이 그림을 여전히 완벽하게 정확하게 그릴 수 있지만, 선은 이제 매끄럽고 읽기 쉬우며 모방하려는 실제 함수처럼 보인다고 보여줍니다.

왜 중요한가: "연쇄 반응"

"개별 붓질을 매끄럽게 만들면, 전체 그림도 매끄럽게 유지될까?"라고 물을 수 있습니다.

우려: 심층 네트워크에서 한 층의 출력은 다음 층의 입력이 됩니다. 이는 연쇄 반응과 같습니다. 첫 번째 층이 약간 흔들리면, 다음 층이 그 흔들림을 증폭시켜 큰 혼란으로 만들 수 있습니다.
발견: 저자들은 수학적으로 개별 가장자리 (붓질) 를 매끄럽게 만들면 전체 그림이 얼마나 지저분해질 수 있는지에 대한 "한계"가 자동으로 설정된다는 것을 증명했습니다. 작은 부분을 통제함으로써 전체를 통제하는 것입니다.
보너스: 그들은 또한 페널티에 가중치를 두어 이를 더 개선하는 방법도 발견했습니다. 일부 붓질은 최종 그림에 다른 것들보다 더 중요합니다. "중요한" 붓질에 더 많은 주의를 기울임으로써 로봇은 더 빠르고 정확하게 학습합니다.

큰 승리: 안정성과 단순성

이전에는 로봇이 너무 복잡해지면 (과매개변수화) 불안정해져서 충돌했습니다. 이를 해결하기 위해 과학자들은 복잡한 다단계 훈련 과정을 사용해야 했습니다: 간단한 그리드로 시작하여 훈련한 후, 복잡한 그리드로 전환하고 다시 시작하는 것입니다. 이는 집을 지은 후 더 큰 집을 짓기 위해 허물어뜨리는 것과 같습니다.

이 새로운 "매끄러움 패널티"를 사용하면 로봇은 처음부터 복잡하고 고해상도의 그리드를 처리할 수 있습니다. 복잡한 다단계 과정이 필요 없이 안정적으로 유지됩니다.

요약

이슈: 해석 가능해야 하는 AI 모델 (KAN) 은 종종 이해하기 어려운 거칠고 지저분한 선을 그립니다.
이전 방식: 선의 "크기"를 제한하여 이를 막으려 했지만, 효과가 없었습니다.
새로운 방식: "구부림"이나 "흔들림"에 대해 수수료를 부과하는 페널티를 도입했습니다. 이는 AI 가 매끄럽고 깨끗한 선을 그리도록 강제합니다.
결과: AI 는 여전히 정확성을 유지하지만, 결과는 매끄럽고 안정적이며 인간이 해석하기 훨씬 쉬워집니다. 이는 "블랙박스"를 명확하고 읽기 쉬운 스케치로 바꿉니다.

기술적 요약: KAN 은 곡률이 필요하다: 구성적 부드러움을 위한 패널티

문제 제기
콜모고로프-아르놀드 네트워크 (KAN) 는 고정된 비선형성을 에지 상의 학습 가능한 단변수 활성화 함수로 대체함으로써 기존 신경망에 대한 매력적인 대안을 제시하며, 높은 정확도와 해석 가능성을 모두 약속합니다. 그러나 과학적 머신러닝에서의 실용성을 제한하는 치명적인 결함이 존재합니다: 잘 맞는 KAN 은 종종 활성화 함수 내에서 "병리적으로 높은 곡률의 진동"을 발달시킵니다. 이러한 모델이 데이터를 정확하게 적합시키더라도, 결과적으로 발생하는 "꺾임과 같은" 진동은 학습된 함수를 읽을 수 없게 만들고 해석을 어렵게 만듭니다. 저자들은 KAN 에서 사용되는 표준 정규화 패널티 (특히 Liu 등이 제안한 크기 및 엔트로피 패널티) 는 구조적으로 이를 방지할 수 없다고 주장합니다. 이러한 표준 패널티는 활성화의 평균 크기에만 의존하며 미분 정보를 포함하지 않기 때문에, 평균 크기가 동일하다면 격렬하게 진동하는 함수와 부드러운 함수는 동일한 패널티를 부과받습니다.

방법론
부드러움의 부재를 해결하기 위해, 저자들은 페널티드 스플라인 (P-splines) 이론에서 유래한 기저 무관 곡률 패널티를 제안합니다.

에지별 패널티의 유도:
저자들은 단변수 활성화 함수 $\phi_e$ 의 곡률을 $L_2$ 굽힘 에너지 $\int (\phi_e''(z))^2 dz$ 로 정의합니다. KAN 활성화 형태 (기저 함수, 일반적으로 SiLU 와 B-스플라인의 선형 결합) 를 대입하여 모델 계수에 직접 작용하는 폐쇄형 패널티를 유도합니다:
$R(f) = \sum_{e} \left( \|D_2(\beta_e c_e)\|^2 + K_{\text{silu}} \alpha_e^2 \right)$
여기서 $D_2$ 는 스플라인 계수 $c_e$ 에 작용하는 2 차 차분 행렬이며, $\beta_e$ 는 스플라인을 스케일링하고, $\alpha_e$ 는 기저 함수를 스케일링합니다. 항 $K_{\text{silu}}$ 는 SiLU 함수의 2 차 도함수에서 유도된 상수입니다. 이 패널티는 에지별로 적용되며 훈련 데이터 분포와 무관합니다.
구성적 곡률의 이론적 분석:
에지별 부드러움이 자동으로 전체 구성 함수의 부드러움을 보장하지는 않는다는 점을 인식하여, 저자들은 구성 분석을 수행합니다. KAN 의 특정 구조 (단변수 에지로 인해 레이어 헤시안이 대각 행렬임) 를 활용하여 연쇄 법칙을 사용하여 전체 네트워크 함수의 헤시안을 유도합니다.
저자들은 제안된 에지별 패널티 $R(f)$ 가 진정한 구성 수준 곡률 $\mathcal{R}(f)$ (입력 헤시안의 기대값 제곱 프로베니우스 노름으로 정의됨) 에 대한 엄격한 상한임을 확립하는 정리 1을 증명합니다. 이 증명은 경로 가중치, 활성화 밀도, 매듭 간격에 관한 세 가지 구조적 가정에 의존하며, 에지별 패널티를 최소화하는 것이 전역 곡률의 상한을 효과적으로 최소화함을 보여줍니다.
가중 확장:
저자들은 연쇄 법칙 분해에서 유도된 기대 경로 가중치 ( $\bar{w}_e$ ) 를 통합하는 더 풍부한 "가중 패널티"를 추가로 제안합니다. 이 변형은 각 에지의 패널티를 전역 헤시안에 대한 기대 영향에 따라 스케일링하지만, 훈련 데이터 분포에 대한 의존성을 다시 도입합니다.

주요 기여

기존 패널티의 구조적 한계: 본 논문은 표준 KAN 패널티가 미분 정보를 결여하고 있어 크기가 동일한 부드러운 함수와 진동 함수를 구별할 수 없으므로 부드러움을 강제할 수 없음을 입증합니다.
기저 무관 곡률 패널티: 저자들은 2 차 도함수가 제곱 적분 가능한 임의의 고정 기저 (예: B-스플라인) 에 적용 가능한 폐쇄형 계수 기반 곡률 패널티를 유도했습니다.
이론적 상한: 구성 분석을 통해, 논문은 에지별 패널티가 전체 네트워크의 곡률에 대한 상한을 제공함을 증명하여 국소 패널티를 사용하여 전역 부드러움을 제어하는 이론적 근거를 제공합니다.
실증적 검증: 연구는 곡률 패널티가 적용된 KAN 이 함수 근사, Feynman 기호 회귀 벤치마크, 과파라미터화 영역 전반에 걸쳐 패널티가 없거나 표준 패널티가 적용된 모델과 비교할 수 있는 정확도를 유지하면서 실질적으로 더 부드러운 활성화 함수를 달성함을 보여줍니다.

결과

함수 근사: $f(x, y) = \sin(x + y^2)$ 및 $f(x, y) = \exp(\sin(\pi x) + y^2)$ 와 같은 함수를 근사하는 실험에서, 곡률 패널티가 적용된 모델은 실제 구성 요소 (예: 부드러운 사인 및 다항식 곡선) 와 시각적으로 일치하는 활성화 함수를 생성한 반면, 패널티가 없는 모델은 고주파 진동을 나타냈습니다.
Feynman 벤치마크: Feynman 기호 회귀 벤치마크의 14 개 방정식에서, 곡률 패널티가 적용된 KAN 은 14 개 모든 경우에서 최저의 총 에지 곡률을 달성했습니다. 정확도 (테스트 RMSE) 측면에서 14 개 방정식 중 9 개에서 표준 KAN 패널티와 일치하거나 능가했으며, 모든 경우에서 최상의 정확도 대비 2 배 이내의 성능을 보였습니다.
과파라미터화 영역에서의 안정성: 곡률 패널티는 과파라미터화된 KAN(높은 그리드 크기 $G$ ) 의 훈련을 크게 안정화시켰습니다. 초기에 수렴하는 표준 KAN 패널티와 달리, 곡률 패널티가 적용된 모델은 3000 에포크 이상 계속 개선되었습니다. 또한, 이 패널티는 "그리드 확장"(낮은 $G$ 로 시작하는 다단계 훈련 프로세스) 없이 고해상도 그리드 ( $G=200$ ) 로 안정적인 훈련을 가능하게 하여, 패널티가 없는 모델이 치명적으로 실패했던 곳에서 $\sim 10^{-3}$ 수준의 테스트 RMSE 를 달성했습니다.
옵티마이저 독립성: 곡률 패널티의 이점은 Adam 및 L-BFGS 옵티마이저 모두에서 관찰되었습니다.
가중 패널티: 10 개의 시드 비교 결과, 경로 가중치를 통합한 가중 곡률 패널티는 균일한 에지별 패널티에 비해 평균 테스트 RMSE 를 2.2 배 감소시켰습니다.

의의 및 주장
본 논문은 곡률 패널티가 KAN 을 위한 "단일하고 원칙적인 부드러움 레버"를 제공한다고 주장합니다. 그 중요성은 다음 세 가지 영역에 있습니다:

해석 가능성: 부드러운 활성화를 강제함으로써 패널티는 KAN 의 내부 표현을 읽을 수 있게 하고, 물리 법칙이 일반적으로 부드럽다는 과학적 직관과 정렬시켜, KAN 을 과학적 머신러닝 도구로서 강화합니다.
훈련 안정성: 고해상도 KAN 훈련의 불안정성을 해결하여 복잡한 다단계 그리드 확장 프로토콜 없이 단일 단계 종단간 최적화를 가능하게 합니다. 이는 KAN 을 신경 아키텍처 검색이나 메타러닝과 같은 더 넓은 시스템에 통합하는 데 중요합니다.
아키텍처적 이점: 분석은 단변수 에지로 인한 KAN 헤시안의 대각 구조가 구성적 곡률에 대한 해석 가능한 에지별 귀속을 가능하게 하는 고유한 구조적 이점임을 강조하며, 이는 표준 MLP 에서는 존재하지 않는 특성입니다.

저자들은 부드러움이 단순히 추가된 기능이 아니라 KAN 아키텍처에 내재된 제어 가능한 속성이며, 곡률 패널티를 통해 이 속성을 관리하는 것이 해석 가능한 과학적 발견에서 KAN 의 잠재력을 실현하는 데 필수적이라고 결론지었습니다.