Marginals Before Conditionals
이 논문은 신경망이 조건부 학습을 수행할 때 모호성으로 인해 발생하는 로그 K 의 손실 플래토가 먼저 형성된 후, 데이터셋 크기와 학습률에 의해 결정되는 집단적 전이를 거쳐 급격히 해결되는 역동적 학습 메커니즘을 규명했습니다.
2316 편의 논문
이 논문은 신경망이 조건부 학습을 수행할 때 모호성으로 인해 발생하는 로그 K 의 손실 플래토가 먼저 형성된 후, 데이터셋 크기와 학습률에 의해 결정되는 집단적 전이를 거쳐 급격히 해결되는 역동적 학습 메커니즘을 규명했습니다.
이 논문은 에너지 기반 구조를 유지하면서 확률적 외란과 소산을 고려한 '확률적 포트-해밀토니안 신경망 (SPH-NN)'을 제안하고, 약한 수동성 보장을 증명하며 기존 다층 퍼셉트론보다 장기 예측 정확도와 에너지 보존 성능이 뛰어난 것을 실험을 통해 입증했습니다.
이 논문은 NTK 스케일링에서의 심층 신경망 SGD 학습을 분석하여, 커널과 학습률 등에 의존하는 명시적 함수 의 부호에 따라 '대형 스파이크' 발생 여부가 결정되는 정량적 이론을 제시합니다.
이 논문은 기존 안전 장치를 우회하여 오픈 가중치 대규모 언어 모델 (LLM) 이 유해한 콘텐츠를 생성하도록 유도하는 '아메네시아 (Amnesia)'라는 경량화 활성화 공간 적대적 공격 기법을 제안하고 그 유효성을 입증합니다.
이 논문은 양자 모델의 주파수 학습 편향을 완화하기 위해 고전적 푸리에 신경 연산자의 아이디어를 차용하여 잔차에 기반한 다단계 학습 방식을 제안하고, 이를 통해 다양한 주파수 성분을 효과적으로 학습할 수 있음을 실험적으로 입증합니다.
이 논문은 최상위 수준의 감독 신호만으로 다단계 개념 계층 구조를 발견하는 'MLCS'와 이를 표현하여 다양한 추상화 수준에서의 개입을 가능하게 하는 'Deep-HiCEMs' 아키텍처를 제안함으로써, 기존 평면적이고 얕은 계층에 국한되었던 개념 기반 모델의 한계를 극복하고 해석 가능성과 작업 성능을 동시에 향상시킵니다.
이 논문은 GPU 커널 최적화에서 기존 LLM 의 암묵적 휴리스틱을 대체하여 지식 기반의 전문가 기술과 이중 수준 메모리 구조를 갖춘 다중 에이전트 프레임워크인 KernelSkill 을 제안하고, 이를 통해 Torch Eager 대비 최대 5.44 배의 속도 향상과 높은 성공률을 달성했음을 보여줍니다.
이 논문은 확산 기반 대규모 언어 모델 (dLLM) 의 추론 과정에서 중간 표현의 미묘한 변화를 분석하여 토큰 중요도를 기반으로 초기 레이어의 연산을 생략하는 훈련 없는 가속화 프레임워크 'ES-dLLM'을 제안하며, 생성 품질을 유지하면서 기존 방식 대비 최대 16.8 배의 속도 향상을 달성함을 보여줍니다.
이 논문은 신경망 가중치를 학습 가능한 구조화된 영역으로 간주하는 '가중치 공간 학습 (Weight Space Learning)'을 제안하며, 이를 이해·표현·생성하는 세 가지 차원으로 분류한 최초의 통합 분류 체계를 제시하고 다양한 실용적 응용 분야를 조명합니다.
이 논문은 분자 구조의 계층적 인과관계를 포착하면서도 분자 전체의 범위를 유지하기 위해 적응적 비동기 탈노이즈 일정을 도입한 'Equivariant Asynchronous Diffusion (EAD)' 모델을 제안하여 3D 분자 생성 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 비정상성 시계열 데이터의 분포 변화에 더 민첩하게 대응하기 위해 Adam 옵티마이저의 2 차 보정 계산을 제거한 경량 변형인 TS_Adam 을 제안하며, 이를 통해 다양한 예측 작업에서 MSE 와 MAE 를 유의미하게 감소시키는 것을 입증합니다.
이 논문은 블랙박스 신경망 정책의 해석 불가능성을 해결하기 위해 대규모 언어 모델을 활용해 인간이 읽을 수 있는 코드로 직접 정책을 생성하는 '코드-스페이스 응답 오라클 (CSRO)' 프레임워크를 제안하며, 이를 통해 경쟁력 있는 성능과 함께 설명 가능한 다양한 다중 에이전트 전략을 도출할 수 있음을 보여줍니다.
이 논문은 2020 년 미국 인구조사에 사용된 기존 'TopDown' 알고리즘보다 계층적 구조와 상관관계를 고려한 일반화 최소제곱 회귀 및 간결한 선형대수 연산을 통해 정확도와 일관성을 크게 향상시키면서 동일한 프라이버시 보장을 제공하는 새로운 후처리 방법인 'BlueDown'을 제안합니다.
이 논문은 기존 경량화 기법의 한계를 극복하기 위해 가장 중요한 비트 (MSB) 를 기반으로 한 '소프트 희소성' 패러다임을 제안하여, ReLU 및 Tanh 활성화 함수를 사용하는 CNN 에서 정확도 손실 없이 연산량을 대폭 줄이고 전력 효율을 극대화하는 하드웨어 친화적인 근사 컨볼루션 방법을 제시합니다.
이 논문은 최종 정답뿐만 아니라 추론 과정의 정확성도 고려하기 위해 대비 학습을 정책 최적화에 통합한 CLIPO 를 제안함으로써, 기존 RLVR 의 환각 및 답사 복사 문제를 완화하고 LLM 의 일반화 및 강건성을 향상시킨다고 설명합니다.
이 논문은 '중간 소실' 현상이 학습이나 위치 인코딩 이전에도 초기화 단계에서 이미 존재하는 인과적 디코더의 기하학적 속성임을 수학적으로 증명하고, 표준 학습만으로는 이 구조적 편향을 극복할 수 없음을 실험을 통해 확인했습니다.
이 논문은 잡음과 이상치에 강인하면서도 클래스를 흐리게 하지 않는 불균형 최적 수송 딕셔너리 학습을 통해 초분광 이미지의 비지도 클러스터링 성능을 향상시키는 새로운 방법을 제안합니다.
이 논문은 물리 법칙을 명시적으로 정규화 항으로 사용하지 않고도 제한된 데이터로부터 동역학의 상태 공간 특성을 학습하여 선형 단일 자유도 시스템의 진동 주파수 응답 곡선을 99.87% 의 정확도로 예측하는 내재적 수치 기법과 결합된 신경 연산자 (Neural Operator) 모델을 제안합니다.
이 논문은 과거 학습 체크포인트를 식별하고 모델 병합을 통해 새로운 작업에 대한 초기값으로 활용하는 'Mashup Learning'을 제안하여, 기존 방식 대비 정확도를 높이고 학습 속도를 크게 단축한다고 설명합니다.
이 논문은 기존 Mixture-of-LoRAs 모델에서 발생하는 라우팅 가중치의 불균형 문제를 해결하기 위해, 강화 학습 기반의 RLOO 기법을 활용한 비학습형 라우팅 가중치를 도입하여 모든 LoRA 가 균등하게 활성화되도록 하는 'ReMix'를 제안하고, 이를 통해 제한된 활성화 파라미터 수로 최첨단 성능을 달성함을 보여줍니다.