HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
이 논문은 무언 (Muon) 알고리즘의 중력 꼬리 분포 억제 문제를 해결하고 성능을 향상시키기 위해 헤비-테일 자기 정규화 이론에 기반한 'HTMuon'을 제안하고, 이를 통해 LLM 사전 학습 및 이미지 분류에서 기존 최첨단 방법보다 우수한 결과를 입증합니다.
2385 편의 논문
이 논문은 무언 (Muon) 알고리즘의 중력 꼬리 분포 억제 문제를 해결하고 성능을 향상시키기 위해 헤비-테일 자기 정규화 이론에 기반한 'HTMuon'을 제안하고, 이를 통해 LLM 사전 학습 및 이미지 분류에서 기존 최첨단 방법보다 우수한 결과를 입증합니다.
이 논문은 단일 프롬프트 평가의 한계를 극복하고, 지속적 상호작용 하에서 LLM 의 안전성 저하를 연속적 궤적으로 측정하며 판사 모델의 신뢰성을 핵심 지표로 삼는 자동화된 레드팀링 프레임워크인 ADVERSA 를 제안하고, 이를 통해 선두 모델들 간의 초기 라운드에 집중된 재일브랙 경향과 다양한 실험적 한계들을 규명했습니다.
이 논문은 희소 오토인코더 (SAE) 를 시계열 파운데이션 모델 Chronos-T5-Large 에 적용하여, 주기적 패턴 인식보다 급격한 동적 변화 탐지가 예측에 더 중요하며 중간 레이어의 특징이 최종 레이어보다 인과적으로 결정적임을 규명했습니다.
이 논문은 Vul4J 벤치마크를 통해 LLM 이 생성한 보안 패치의 성공률을 분석한 결과, 문법적 오류는 적으나 의미적 오해로 인해 보안 및 기능적 실패율이 높음을 규명하고 이를 정량화하는 보안 복구 점수 (SRS) 를 제안했습니다.
이 논문은 신경망이 조건부 학습을 수행할 때 모호성으로 인해 발생하는 로그 K 의 손실 플래토가 먼저 형성된 후, 데이터셋 크기와 학습률에 의해 결정되는 집단적 전이를 거쳐 급격히 해결되는 역동적 학습 메커니즘을 규명했습니다.
이 논문은 UAV 군집의 분산 연합 학습에서 기존 이상치 탐지 기반 방어법의 한계를 극복하기 위해, 공격자가 은닉할수록 두드러지는 그라디언트의 주파수 특성을 분석하여 백도어 작업을 구조적으로 무력화하는 'TASER'라는 새로운 효율적 방어 프레임워크를 제안합니다.
이 논문은 기존 안전 장치를 우회하여 오픈 가중치 대규모 언어 모델 (LLM) 이 유해한 콘텐츠를 생성하도록 유도하는 '아메네시아 (Amnesia)'라는 경량화 활성화 공간 적대적 공격 기법을 제안하고 그 유효성을 입증합니다.
이 논문은 최상위 수준의 감독 신호만으로 다단계 개념 계층 구조를 발견하는 'MLCS'와 이를 표현하여 다양한 추상화 수준에서의 개입을 가능하게 하는 'Deep-HiCEMs' 아키텍처를 제안함으로써, 기존 평면적이고 얕은 계층에 국한되었던 개념 기반 모델의 한계를 극복하고 해석 가능성과 작업 성능을 동시에 향상시킵니다.
이 논문은 GPU 커널 최적화에서 기존 LLM 의 암묵적 휴리스틱을 대체하여 지식 기반의 전문가 기술과 이중 수준 메모리 구조를 갖춘 다중 에이전트 프레임워크인 KernelSkill 을 제안하고, 이를 통해 Torch Eager 대비 최대 5.44 배의 속도 향상과 높은 성공률을 달성했음을 보여줍니다.
이 논문은 확산 기반 대규모 언어 모델 (dLLM) 의 추론 과정에서 중간 표현의 미묘한 변화를 분석하여 토큰 중요도를 기반으로 초기 레이어의 연산을 생략하는 훈련 없는 가속화 프레임워크 'ES-dLLM'을 제안하며, 생성 품질을 유지하면서 기존 방식 대비 최대 16.8 배의 속도 향상을 달성함을 보여줍니다.
이 논문은 사고 모드 (thinking mode) 를 사용하는 대형 언어 모델의 안전 정렬을 우회하기 위해 단일 프롬프트 내 여러 작업 스트림을 교차시켜 간섭을 유발하는 '멀티스트림 교란 공격'을 제안하고, 이를 통해 주요 모델들에서 높은 공격 성공률과 사고 과정 붕괴를 입증했습니다.
이 논문은 OpenClaw 스타일 에이전트와 스킬 마켓플레이스 환경에서 실행 계층의 취약점을 해결하기 위해, LLM 의도와 스킬을 비신뢰 대상으로 간주하고 마지막 단계의 불변성을 강제하는 '생존성 인식 실행 (SAE)' 미들웨어를 제안하며, 이를 통해 암호화폐 거래 시 최대 낙폭과 위험 가치를 극적으로 감소시키고 공격 성공률을 낮추는 효과를 입증했습니다.
이 논문은 분자 구조의 계층적 인과관계를 포착하면서도 분자 전체의 범위를 유지하기 위해 적응적 비동기 탈노이즈 일정을 도입한 'Equivariant Asynchronous Diffusion (EAD)' 모델을 제안하여 3D 분자 생성 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 블랙박스 신경망 정책의 해석 불가능성을 해결하기 위해 대규모 언어 모델을 활용해 인간이 읽을 수 있는 코드로 직접 정책을 생성하는 '코드-스페이스 응답 오라클 (CSRO)' 프레임워크를 제안하며, 이를 통해 경쟁력 있는 성능과 함께 설명 가능한 다양한 다중 에이전트 전략을 도출할 수 있음을 보여줍니다.
이 논문은 기존 경량화 기법의 한계를 극복하기 위해 가장 중요한 비트 (MSB) 를 기반으로 한 '소프트 희소성' 패러다임을 제안하여, ReLU 및 Tanh 활성화 함수를 사용하는 CNN 에서 정확도 손실 없이 연산량을 대폭 줄이고 전력 효율을 극대화하는 하드웨어 친화적인 근사 컨볼루션 방법을 제시합니다.
이 논문은 최종 정답뿐만 아니라 추론 과정의 정확성도 고려하기 위해 대비 학습을 정책 최적화에 통합한 CLIPO 를 제안함으로써, 기존 RLVR 의 환각 및 답사 복사 문제를 완화하고 LLM 의 일반화 및 강건성을 향상시킨다고 설명합니다.
이 논문은 '중간 소실' 현상이 학습이나 위치 인코딩 이전에도 초기화 단계에서 이미 존재하는 인과적 디코더의 기하학적 속성임을 수학적으로 증명하고, 표준 학습만으로는 이 구조적 편향을 극복할 수 없음을 실험을 통해 확인했습니다.
이 논문은 기존 VLA 모델의 반응적 한계를 극복하고, 긴 기억을 통해 시간적 일관성을 유지하며 느린 추론과 빠른 제어를 조화시키는 독립적인 자기회귀 행동 전문가 (AR-VLA) 를 제안하여 로봇 정책의 성능과 안정성을 향상시켰습니다.
이 논문은 도메인 전문가의 수동 개입 없이 AI 에이전트가 지속적인 최적화 루프를 통해 데이터 제품의 품질을 자동화하고 인간 감독을 통합하여 데이터 자산의 신뢰성과 관측 가능성을 높이는 시스템을 제안합니다.
이 논문은 생성과 인식이 확장적으로 동등하지만 계산 복잡성, 모호성, 방향성, 정보 가용성, 문법 추론, 시간성 등 여섯 가지 차원에서 근본적인 비대칭성을 보이며, 특히 '생성은 쉽고 구문 분석은 어렵다'는 통념이 생성이 제약받지 않을 때만 성립함을 지적하고 이를 언어 모델의 맥락에서 재해석합니다.