Compiler-First State Space Duality and Portable Autoregressive Caching for Inference
이 논문은 Mamba-2 의 상태 공간 이중성 알고리즘을 XLA 의 퓨전 및 타일링 최적화에 매핑하여 커스텀 커널 없이 CPU, NVIDIA GPU, Google Cloud TPU 등 다양한 하드웨어에서 자동회귀 캐싱을 지원하는 포터블 컴파일러 기반 구현을 제시합니다.
5601 편의 논문
이 논문은 Mamba-2 의 상태 공간 이중성 알고리즘을 XLA 의 퓨전 및 타일링 최적화에 매핑하여 커스텀 커널 없이 CPU, NVIDIA GPU, Google Cloud TPU 등 다양한 하드웨어에서 자동회귀 캐싱을 지원하는 포터블 컴파일러 기반 구현을 제시합니다.
이 논문은 신뢰할 수 없는 조건부 독립 오라클 하에서 마르코프 네트워크는 특정 조건 하에 구조를 식별할 수 있음을 보이지만, 베이지안 네트워크는 오라클의 오류가 하나만 있어도 구조를 항상 식별할 수 없음을 증명하고, 식별 가능한 경우에 대한 구조 학습 알고리즘을 제시합니다.
이 논문은 대규모 데이터셋에서 기존 TMFG 의 메모리 및 실행 시간 제약을 해결하기 위해 k-NN 그래프와 온-더-플라이 상관관계 추정을 활용한 확장 가능한 근사 삼각 최대 필터링 그래프 (a-TMFG) 알고리즘을 제안합니다.
이 논문은 트랜스포머 아키텍처를 이산 시간 제어된 입자 시스템으로 모델링하고 확률 측도로 리프팅하여 완전 관측 마르코프 의사결정 과정 (MDP) 을 구성함으로써, 경사 기반 학습의 제약 없이 전역 최적 정책을 보장하는 새로운 최적 제어 이론적 훈련 접근법을 제시합니다.
이 논문은 부분 관측 데이터만으로 인간형 로봇의 보행 제어를 가능하게 하기 위해, 센서 입력을 기반으로privileged 상태 정보를 추론하도록 훈련된 센서 조건부 확산 정책 (SCDP) 을 제안하고, 시뮬레이션 및 실제 G1 로봇에서의 성공적인 배포를 입증합니다.
이 논문은 온라인 연속 학습 환경에서 반복적인 최적화 없이 단일 단계의 연관성 기반 검색을 통해 동적 프롬프트를 생성함으로써 기존 프롬프트 기반 방법보다 뛰어난 성능을 보이는 '잊지 않는 라우팅 (Routing without Forgetting)'이라는 새로운 트랜스포머 아키텍처를 제안합니다.
본 논문은 외부 스케줄러 없이도 고도로 퇴화된 다항식에서 아담 (Adam) 이 그라디언트 하강법보다 우수한 선형 수렴 속도를 보이는 이론적 조건과 메커니즘을 규명하고, 하이퍼파라미터에 따른 세 가지 동작 영역을 제시합니다.
이 논문은 비모수 변형 정보 병목 (NVIB) 기반 모델의 학습 중 잠재 표현의 불안정성을 해결하기 위해 레니 발산 상한 최소화를 수학적으로 유도한 파라미터 클리핑 전략을 제안함으로써, 더 강력한 프라이버시 보장과 향상된 유틸리티를 동시에 달성하는 프라이버시 보호 언어 모델 구축 방법을 제시합니다.
이 논문은 ReLU 활성화 함수를 가진 심층 신경망이 개의 데이터를 기억하기 위해 필요한 최소 네트워크 크기를 분석하여, 폭 () 과 깊이 () 가 를 만족할 때 임의의 데이터를 기억할 수 있음을 증명하고 이 관계가 최적임을 보임으로써 폭과 깊이 간의 트레이드오프를 명확히 규명했습니다.
이 논문은 과분산 및 복잡한 평균 - 분산 관계를 가진 데이터를 위해 트위디와 음이항 분포를 기반으로 한 전통적 및 볼록 NMF 를 위한 통합 MM 알고리즘 프레임워크를 개발하고, R 패키지 `nmfgenr` 을 통해 구현하여 다양한 실증 데이터를 통해 그 유효성을 입증합니다.
이 논문은 사전 정의된 하위 네트워크에 의존하지 않고 fMRI 데이터의 고유한 특성을 기반으로 뇌 네트워크의 계층적 조직을 학습하는 'BrainHO' 모델을 제안하여 뇌 질환 진단 성능을 향상시키고 해석 가능한 생체 표지자를 발견합니다.
이 논문은 재학습 없이 희소 모델의 서브그래프를 재조합하는 '모델 스티칭' 기법과 이를 에지 SoC 에 배포한 SparseLoom 시스템을 제안하여, 기존 멀티 DNN 추론 시스템 대비 SLO 위반률을 최대 74% 감소시키고 처리량을 2.31 배 향상시키며 메모리 오버헤드를 평균 28% 절감하는 것을 실험적으로 입증했습니다.
이 논문은 광자 기반 양자 머신러닝 (PQML) 시스템에서 발생하는 주요 잡음 원인과 그 영향을 체계적으로 분석하고, 잡음 특성화 및 완화 전략을 검토하여 견고하고 확장 가능한 PQML 시스템 개발을 위한 향후 연구 방향을 제시합니다.
이 논문은 우물 로그에서 유래한 공극률 값을 조건으로 삼아 희소한 박편 데이터를 기반으로 탄산염 암석의 현실적인 미세 구조 이미지를 생성하는 조건부 생성적 적대 신경망 (cGAN) 프레임워크를 제안하여, 이산적인 시료 간격을 넘어 연속적인 공극 규모 시각화와 저류층 특성 분석을 가능하게 합니다.
이 논문은 저주파 패턴 학습과 중·고주파 에너지 향상을 위한 필터 강화 주기 예측 및 분할 주파수 패턴 학습 모듈을 통합한 FreqCycle 과 이를 계층적으로 확장한 MFreqCycle 을 제안하여, 다양한 시계열 예측 벤치마크에서 최첨단 정확도와 빠른 추론 속도를 동시에 달성함을 보여줍니다.
이 논문은 라벨 및 선택 편향이 분류 모델의 평가와 성능, 편향 완화 기법에 미치는 영향을 실증적으로 분석하고, 통제된 편향을 도입한 새로운 평가 프레임워크를 통해 편향 없는 테스트 환경에서 공정성과 정확도 간의 트레이드오프가 존재하지 않음을 규명했습니다.
이 논문은 그래프 신경망 (GNN) 을 활용한 시계열 이상 탐지를 위한 오픈소스 프레임워크를 제시하고, 이를 통해 GNN 기반 모델이 탐지 성능과 해석 가능성 측면에서 우수하며 평가 방법론의 개선이 필요함을 비판적으로 분석합니다.
이 논문은 대규모 언어 모델이 기존 코드 생성 벤치마크에서 높은 점수를 얻는 것이 단순 암기에 불과할 수 있음을 지적하며, 데이터 오염 가능성이 낮은 에소테릭 프로그래밍 언어를 활용한 'EsoLang-Bench'를 통해 모델들의 진정한 추론 능력을 평가했을 때 기존 벤치마크 점수와 극명하게 대비되는 낮은 성능을 확인했다고 요약할 수 있습니다.
이 논문은 저랭크 분해 기반 파라미터 효율적 미세 조정 (PEFT) 에서 순차 학습 시 발생하는 catastrophic forgetting(과거 지식 망각) 이 업데이트 서브스페이스의 기하학적 구조와 파라미터화 방식에 크게 의존하며, 텐서 기반 분해나 구조적으로 정렬된 파라미터화 방법이 기존 방법보다 망각을 효과적으로 완화할 수 있음을 실증적으로 규명합니다.
이 논문은 RLHF 의 비용 문제를 해결하기 위해 불확실성 추정과 새로운 샘플링 기법을 활용한 'ActiveUltraFeedback'이라는 능동 학습 파이프라인을 제안하며, 기존 방법보다 적은 양의 주석 데이터로도 동등하거나 더 우수한 성능을 달성함을 보여줍니다.