Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
이 논문은 기존 어텐션 메커니즘을 고전적 에너지 함수의 경사 하강으로 해석하고, 랑주뱅 동역학을 적용하여 학습 없이 온도로만 제어되는 확률적 어텐션을 제안함으로써, 생성 단계에서 기존 학습 기반 베이스라인보다 뛰어난 다양성과 독창성을 달성함을 보여줍니다.
8653 편의 논문
이 논문은 기존 어텐션 메커니즘을 고전적 에너지 함수의 경사 하강으로 해석하고, 랑주뱅 동역학을 적용하여 학습 없이 온도로만 제어되는 확률적 어텐션을 제안함으로써, 생성 단계에서 기존 학습 기반 베이스라인보다 뛰어난 다양성과 독창성을 달성함을 보여줍니다.
이 논문은 강유전체 수직 NAND 의 데이터 유지 특성을 분석할 때 기존 TCAD 시뮬레이션의 높은 계산 비용을 극복하기 위해 물리 법칙을 학습 구조에 통합한 PINO 기반 AI 대리 모델을 개발하여, 물리적 정확도를 유지하면서 10,000 배 이상의 속도 향상을 달성했음을 보여줍니다.
이 논문은 비구형 군집을 모델링하고 임의 크기의 감쇠 윈도우에 대한 폐형식 발자국 업데이트 및 공분산 합집합 기법을 활용하여, 기존 스트리밍 군집화 알고리즘보다 우수한 성능을 보이는 단일 통과 가능도 기반 군집화 (SPC) 알고리즘을 제안하고 검증합니다.
이 논문은 산업 디자인 절차에서 영감을 받아 참조 표면과 모델링 절차를 기반으로 LLM 을 유도하여 스플라인 곡률을 포함한 유기적 형태의 CAD 프로그램을 생성하는 새로운 데이터 증강 패러다임을 제안함으로써, 기존 CAD 데이터의 기하학적 다양성 부족 문제를 해결하고 산업 수준의 디자인과 유사한 고품질 데이터를 확보하는 방법을 제시합니다.
이 논문은 속성 정보를 활용하는 환경에서는 공정한 머신러닝이 소외 계층의 성과를 개선하지만, 속성 정보를 배제한 환경에서는 분포에 따라 오히려 모든 그룹의 성과가 하락하는 '수준 하향 평준화'가 발생할 수 있음을 규명합니다.
이 논문은 XGBoost 의 강점을 활용하여 소규모 데이터셋에는 DDIM 기반 모델을, 대규모 데이터셋에는 계층적 자기회귀 모델을 제안함으로써 혼합형 표본 데이터 생성에서 기존 모델보다 낮은 훈련 비용으로 더 우수한 성능을 달성하는 'XGenBoost'를 소개합니다.
이 논문은 추출된 정보를 지식 베이스에 축적하고, 이를 다시 LLM 추출기의 성능 향상에 활용하는 폐쇄형 순환 구조를 통해 도메인 지식을 지속적으로 진화시키는 'DySECT'라는 동적 자기 진화 추출 시스템을 제안합니다.
이 논문은 동적 환경에서 로봇의 안전한 항법을 위해 단일 장애물에 대한 최적 안전 집합을 근사하는 여러 신경 제어 장벽 함수 (CBF) 를 결합한 'CN-CBF' 방법을 제안하고, 이를 시뮬레이션 및 하드웨어 실험을 통해 기존 기법 대비 성공률을 최대 18% 향상시키면서 과도한 보수성을 유지하지 않음을 입증했습니다.
이 논문은 대규모 언어 모델의 피드포워드 네트워크에서 정보 흐름과 차원 활용을 이해하기 위해 스펙트럼 엔트로피, 참여 비율 등 4 가지 지표를 활용한 통합 고유스펙트럼 분석 프레임워크인 'NerVE'를 제안하며, 이를 통해 다양한 아키텍처와 옵티마이저 설정에서 모델의 일반화 성능과 설계 선택 간의 관계를 규명합니다.
이 논문은 상태 공간 모델 (SSM) 의 재귀적 상태 업데이트 비용을 증가시키지 않으면서 전문가의 전문성을 도입하여 모델 용량을 확장하는 '스위치 맘바 (Swimba)'라는 새로운 아키텍처를 제안하고, 매개변수 공간에서 전문가를 혼합하는 방식이 계산 효율성을 유지하면서 성능을 향상시킬 수 있음을 이론적 및 실증적으로 입증합니다.
이 논문은 코시라트 탄성 이론을 기반으로 한 변형 및 지향장 학습을 위해 물리 법칙을 준수하는 신경망 해법을 개발하고, 준볼록성 및 레전드르 - 하담 불등식과 같은 안정성 조건을 검증 기준으로 활용하여 물리적으로 타당한 평형 해를 보장하는 프레임워크를 제시합니다.
이 논문은 여러 행동에 대한 반사실적 결과의 결합 분포를 명시적으로 모델링하는 '결합 MDP(JMDP)'를 제안하고, 이를 통해 1 단계 결합 체제에서 n 차 반환 모멘트에 대한 벨만 연산자를 유도하여 수렴 보장이 있는 동적 프로그래밍 및 점진적 알고리즘을 제시합니다.
이 논문은 DNA 기반 모델의 임베딩이 '임베딩-as-a-서비스 (EaaS)' 환경에서 공유될 때, 모델 역전 공격을 통해 민감한 원시 서열이 거의 완벽하게 복원될 수 있음을 보여주며, 특히 Evo 2 와 NTv2 모델이 취약하고 BPE 토큰화를 사용하는 DNABERT-2 가 상대적으로 더 안전함을 규명했습니다.
이 논문은 대규모 그래프에서 GNN 파이프라인의 병목 현상을 해결하기 위해 그래프 희석 (sparsification) 이 정확도 유지 또는 향상을 보장하면서 학습 및 추론 속도를 획기적으로 개선할 수 있음을 체계적인 실험을 통해 입증합니다.
이 논문은 정책 경사 (PG) 기반 후학습이 베이스 모델의 지원 (support) 내에서는 최적의 효율성을 보이지만, 이를 벗어날 때는 차원의 저주에 직면한다는 한계를 규명하고, 이를 극복하기 위해 토큰 수준의 가능도 분위수 (LQ) 에 의존하는 과정 보상 모델을 제안합니다.
이 논문은 수학적으로 검증 가능한 보상을 활용한 강화학습 기법인 Chart-RL 을 제안하여, 기존 지도학습보다 다양한 차트 이해 벤치마크에서 우수한 성능과 일반화 능력을 입증했습니다.
이 논문은 사족 보행의 한계 주기 및 포인카레 반환 맵 구조에 기반한 원리 분석을 통해, 시뮬레이션 없이 오프라인으로 단 몇 초의 시연 데이터만으로도 견고한 보행 정책을 학습할 수 있는 새로운 모방 학습 방법을 제안하고 하드웨어 실험을 통해 그 유효성을 입증합니다.
이 논문은 센서 고장으로 인한 데이터 중독 문제를 해결하기 위해 SISA 아키텍처를 기반으로 한 머신 언러닝 프레임워크를 제안하여, 변압기 권선 간 단락 고장 국소화 시 전체 모델 재학습 없이 손상된 데이터 조각만 재학습함으로써 재학습 시간을 획기적으로 단축하면서도 재학습과 동등한 진단 정확도를 달성함을 보여줍니다.
이 논문은 지속성 호몰로지를 활용한 위상 인식 강화학습 프레임워크를 제안하여 극한 기상 및 사이버 공격 상황에서의 전력 배전망 재구성 및 부하 차단 최적화를 통해 에너지 공급량 증대와 전압 위반 감소를 달성하고 회복탄력성을 강화함을 보여줍니다.
이 논문은 조건부 생성 모델링에서 이상치에 민감한 기존 조건부 최적 수송 (COT) 의 한계를 해결하기 위해 조건부 마진을 엄격히 유지하면서 조건부 분포 매칭 제약을 완화하는 '조건부 불균형 최적 수송 (CUOT)' 프레임워크와 이를 기반으로 한 이상치 강건한 생성 모델 (CUOTM) 을 제안합니다.