cs.LG 편의 논문 | Gist.Science

Marginals Before Conditionals

이 논문은 신경망이 조건부 학습을 수행할 때 모호성으로 인해 발생하는 로그 K 의 손실 플래토가 먼저 형성된 후, 데이터셋 크기와 학습률에 의해 결정되는 집단적 전이를 거쳐 급격히 해결되는 역동적 학습 메커니즘을 규명했습니다.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

이 논문은 에너지 기반 구조를 유지하면서 확률적 외란과 소산을 고려한 '확률적 포트-해밀토니안 신경망 (SPH-NN)'을 제안하고, 약한 수동성 보장을 증명하며 기존 다층 퍼셉트론보다 장기 예측 정확도와 에너지 보존 성능이 뛰어난 것을 실험을 통해 입증했습니다.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

이 논문은 NTK 스케일링에서의 심층 신경망 SGD 학습을 분석하여, 커널과 학습률 등에 의존하는 명시적 함수 $G$ 의 부호에 따라 '대형 스파이크' 발생 여부가 결정되는 정량적 이론을 제시합니다.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

이 논문은 기존 안전 장치를 우회하여 오픈 가중치 대규모 언어 모델 (LLM) 이 유해한 콘텐츠를 생성하도록 유도하는 '아메네시아 (Amnesia)'라는 경량화 활성화 공간 적대적 공격 기법을 제안하고 그 유효성을 입증합니다.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

이 논문은 양자 모델의 주파수 학습 편향을 완화하기 위해 고전적 푸리에 신경 연산자의 아이디어를 차용하여 잔차에 기반한 다단계 학습 방식을 제안하고, 이를 통해 다양한 주파수 성분을 효과적으로 학습할 수 있음을 실험적으로 입증합니다.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

이 논문은 최상위 수준의 감독 신호만으로 다단계 개념 계층 구조를 발견하는 'MLCS'와 이를 표현하여 다양한 추상화 수준에서의 개입을 가능하게 하는 'Deep-HiCEMs' 아키텍처를 제안함으로써, 기존 평면적이고 얕은 계층에 국한되었던 개념 기반 모델의 한계를 극복하고 해석 가능성과 작업 성능을 동시에 향상시킵니다.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

이 논문은 GPU 커널 최적화에서 기존 LLM 의 암묵적 휴리스틱을 대체하여 지식 기반의 전문가 기술과 이중 수준 메모리 구조를 갖춘 다중 에이전트 프레임워크인 KernelSkill 을 제안하고, 이를 통해 Torch Eager 대비 최대 5.44 배의 속도 향상과 높은 성공률을 달성했음을 보여줍니다.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

이 논문은 확산 기반 대규모 언어 모델 (dLLM) 의 추론 과정에서 중간 표현의 미묘한 변화를 분석하여 토큰 중요도를 기반으로 초기 레이어의 연산을 생략하는 훈련 없는 가속화 프레임워크 'ES-dLLM'을 제안하며, 생성 품질을 유지하면서 기존 방식 대비 최대 16.8 배의 속도 향상을 달성함을 보여줍니다.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

이 논문은 신경망 가중치를 학습 가능한 구조화된 영역으로 간주하는 '가중치 공간 학습 (Weight Space Learning)'을 제안하며, 이를 이해·표현·생성하는 세 가지 차원으로 분류한 최초의 통합 분류 체계를 제시하고 다양한 실용적 응용 분야를 조명합니다.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

이 논문은 분자 구조의 계층적 인과관계를 포착하면서도 분자 전체의 범위를 유지하기 위해 적응적 비동기 탈노이즈 일정을 도입한 'Equivariant Asynchronous Diffusion (EAD)' 모델을 제안하여 3D 분자 생성 성능을 획기적으로 개선했음을 보여줍니다.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

이 논문은 비정상성 시계열 데이터의 분포 변화에 더 민첩하게 대응하기 위해 Adam 옵티마이저의 2 차 보정 계산을 제거한 경량 변형인 TS_Adam 을 제안하며, 이를 통해 다양한 예측 작업에서 MSE 와 MAE 를 유의미하게 감소시키는 것을 입증합니다.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

이 논문은 블랙박스 신경망 정책의 해석 불가능성을 해결하기 위해 대규모 언어 모델을 활용해 인간이 읽을 수 있는 코드로 직접 정책을 생성하는 '코드-스페이스 응답 오라클 (CSRO)' 프레임워크를 제안하며, 이를 통해 경쟁력 있는 성능과 함께 설명 가능한 다양한 다중 에이전트 전략을 도출할 수 있음을 보여줍니다.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

이 논문은 2020 년 미국 인구조사에 사용된 기존 'TopDown' 알고리즘보다 계층적 구조와 상관관계를 고려한 일반화 최소제곱 회귀 및 간결한 선형대수 연산을 통해 정확도와 일관성을 크게 향상시키면서 동일한 프라이버시 보장을 제공하는 새로운 후처리 방법인 'BlueDown'을 제안합니다.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

이 논문은 기존 경량화 기법의 한계를 극복하기 위해 가장 중요한 비트 (MSB) 를 기반으로 한 '소프트 희소성' 패러다임을 제안하여, ReLU 및 Tanh 활성화 함수를 사용하는 CNN 에서 정확도 손실 없이 연산량을 대폭 줄이고 전력 효율을 극대화하는 하드웨어 친화적인 근사 컨볼루션 방법을 제시합니다.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

이 논문은 최종 정답뿐만 아니라 추론 과정의 정확성도 고려하기 위해 대비 학습을 정책 최적화에 통합한 CLIPO 를 제안함으로써, 기존 RLVR 의 환각 및 답사 복사 문제를 완화하고 LLM 의 일반화 및 강건성을 향상시킨다고 설명합니다.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

이 논문은 '중간 소실' 현상이 학습이나 위치 인코딩 이전에도 초기화 단계에서 이미 존재하는 인과적 디코더의 기하학적 속성임을 수학적으로 증명하고, 표준 학습만으로는 이 구조적 편향을 극복할 수 없음을 실험을 통해 확인했습니다.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

이 논문은 잡음과 이상치에 강인하면서도 클래스를 흐리게 하지 않는 불균형 최적 수송 딕셔너리 학습을 통해 초분광 이미지의 비지도 클러스터링 성능을 향상시키는 새로운 방법을 제안합니다.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

이 논문은 물리 법칙을 명시적으로 정규화 항으로 사용하지 않고도 제한된 데이터로부터 동역학의 상태 공간 특성을 학습하여 선형 단일 자유도 시스템의 진동 주파수 응답 곡선을 99.87% 의 정확도로 예측하는 내재적 수치 기법과 결합된 신경 연산자 (Neural Operator) 모델을 제안합니다.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

이 논문은 과거 학습 체크포인트를 식별하고 모델 병합을 통해 새로운 작업에 대한 초기값으로 활용하는 'Mashup Learning'을 제안하여, 기존 방식 대비 정확도를 높이고 학습 속도를 크게 단축한다고 설명합니다.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

이 논문은 기존 Mixture-of-LoRAs 모델에서 발생하는 라우팅 가중치의 불균형 문제를 해결하기 위해, 강화 학습 기반의 RLOO 기법을 활용한 비학습형 라우팅 가중치를 도입하여 모든 LoRA 가 균등하게 활성화되도록 하는 'ReMix'를 제안하고, 이를 통해 제한된 활성화 파라미터 수로 최첨단 성능을 달성함을 보여줍니다.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← 이전 다음 →