cs.LG 편의 논문 | Gist.Science

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

이 논문은 오프라인 데이터의 행동 지원 범위 내에서 안전한 온라인 탐색을 보장하면서도 디코더의 재구성 손실로 인한 성능 한계를 우회하기 위해, 저차원 잠재 공간 탐색에서 원시 행동 공간 활용으로 점진적으로 전환하는 커리큘럼 학습 프레임워크인 SPAARS 를 제안하고 그 유효성을 입증합니다.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

이 논문은 트랜스포머 기반의 확산 모델에 비해 계산 효율성과 훈련 속도가 월등히 뛰어난 'FCDM(Fully Convolutional Diffusion Model)'을 제안하며, 이를 통해 현대적인 합성곱 설계가 효율적인 생성 모델링을 위한 강력한 대안이 될 수 있음을 입증합니다.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

이 논문은 밀집 환경과 낮은 샘플링 주기를 가진 GPS 데이터의 정합 정확도와 계산 효율성을 향상시키기 위해 동적 버퍼, 적응형 관측 확률, 재설계된 시간적 점수 함수, 그리고 행동 분석을 포함한 네 가지 개선 방안을 제안하고 밀라노의 실제 데이터를 통해 그 효과를 입증합니다.

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

이 논문은 산업 공정 제어의 시뮬레이션-현실 간극을 해결하기 위해 상태 구성, 보상 함수, 종료 조건 및 물리 기반 동역학 모델 등 마르코프 결정 과정 (MDP) 설계 요소가 실제 하드웨어 배포에 미치는 영향을 체계적으로 분석하고, 물리 기반 모델이 단순화된 모델보다 50% 높은 성공률을 보임으로써 RL 의 실용적 배포를 위한 설계 가이드라인을 제시합니다.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

이 논문은 기존 역확률 가중치 (IPW) 의 높은 분산 문제를 해결하기 위해 비모수적 가중치 추정과 보상 예측을 결합한 모델 보조 비모수 가중치 (MNW) 방법을 제안하여 오프폴리시 평가의 정확도와 안정성을 크게 향상시켰음을 보여줍니다.

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

이 논문은 베이지안 추론을 MoE 라우팅 단계에만 국한하여 계산 비용을 거의 증가시키지 않으면서도 대규모 베이스 모델의 불확실성 정량화와 안정성을 획기적으로 개선하는 '변분 혼합 전문가 라우팅 (VMoER)' 프레임워크를 제안합니다.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

이 논문은 이전 관측치에 기반한 조건부 정규화 흐름 (tcNF) 을 제안하여 시계열 데이터의 복잡한 시간적 의존성과 불확실성을 정밀하게 모델링함으로써 기존 방법보다 우수한 정확도와 강건성을 갖춘 다변량 시계열 이상 탐지 프레임워크를 제시합니다.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

이 논문은 CNN 과 트랜스포머 모델을 모두 지원하며 LoRA 와 같은 파라미터 효율적 미세 조정 전략을 통해 메모리 및 연산 제약이 심한 극단적 엣지 장치에서도 온디바이스 학습을 가능하게 하는 하드웨어 가속 프레임워크 'TrainDeeploy'를 제안합니다.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

이 논문은 언어 모델이 의미적 무관성이나 명시적 반대 내용에도 불구하고, 교차 모델이 생성한 충실한 의역 데이터를 통해 특정 동물에 대한 선호도 같은 행동 특성을 은밀하게 학습할 수 있음을 보여주어, 콘텐츠 기반 검사만으로는 이러한 전파를 탐지하거나 차단하기 어렵다는 위험을 제기합니다.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

이 논문은 타겟 모델의 미세 조정으로 인한 성능 저하를 해결하기 위해 공유 및 비공유 구성 요소를 분리하고, 미세 조정된 타겟 모델을 활용한 데이터 재생성 및 고가치 데이터 선별을 통해 파라미터와 데이터 효율성을 극대화하는 '효율적인 초안 적응 (EDA)' 프레임워크를 제안합니다.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

이 논문은 비준수 (noncompliance) 가 있는 밴딧 문제에서 추천과 실제 치료 간 불일치를 해결하기 위해 BRACE 알고리즘을 제안하며, 이는 다양한 학습 목표 (추천 복지 대 치료 학습) 를 동시에 고려하고 약한 식별성 하에서도 안전하고 유효한 불확실성 추정을 가능하게 합니다.

Nicolás Della Penna2026-03-11🤖 cs.LG

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

이 논문은 Mamba-2 의 상태 공간 이중성 알고리즘을 XLA 의 퓨전 및 타일링 최적화에 매핑하여 커스텀 커널 없이 CPU, NVIDIA GPU, Google Cloud TPU 등 다양한 하드웨어에서 $O(1)$ 자동회귀 캐싱을 지원하는 포터블 컴파일러 기반 구현을 제시합니다.

Cosmo Santoni2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

이 논문은 신뢰할 수 없는 조건부 독립 오라클 하에서 마르코프 네트워크는 특정 조건 하에 구조를 식별할 수 있음을 보이지만, 베이지안 네트워크는 오라클의 오류가 하나만 있어도 구조를 항상 식별할 수 없음을 증명하고, 식별 가능한 경우에 대한 구조 학습 알고리즘을 제시합니다.

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

이 논문은 대규모 데이터셋에서 기존 TMFG 의 메모리 및 실행 시간 제약을 해결하기 위해 k-NN 그래프와 온-더-플라이 상관관계 추정을 활용한 확장 가능한 근사 삼각 최대 필터링 그래프 (a-TMFG) 알고리즘을 제안합니다.

Lionel Yelibi2026-03-11🤖 cs.LG

An Optimal Control Approach To Transformer Training

이 논문은 트랜스포머 아키텍처를 이산 시간 제어된 입자 시스템으로 모델링하고 확률 측도로 리프팅하여 완전 관측 마르코프 의사결정 과정 (MDP) 을 구성함으로써, 경사 기반 학습의 제약 없이 전역 최적 정책을 보장하는 새로운 최적 제어 이론적 훈련 접근법을 제시합니다.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

이 논문은 부분 관측 데이터만으로 인간형 로봇의 보행 제어를 가능하게 하기 위해, 센서 입력을 기반으로privileged 상태 정보를 추론하도록 훈련된 센서 조건부 확산 정책 (SCDP) 을 제안하고, 시뮬레이션 및 실제 G1 로봇에서의 성공적인 배포를 입증합니다.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

이 논문은 온라인 연속 학습 환경에서 반복적인 최적화 없이 단일 단계의 연관성 기반 검색을 통해 동적 프롬프트를 생성함으로써 기존 프롬프트 기반 방법보다 뛰어난 성능을 보이는 '잊지 않는 라우팅 (Routing without Forgetting)'이라는 새로운 트랜스포머 아키텍처를 제안합니다.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

본 논문은 외부 스케줄러 없이도 고도로 퇴화된 다항식에서 아담 (Adam) 이 그라디언트 하강법보다 우수한 선형 수렴 속도를 보이는 이론적 조건과 메커니즘을 규명하고, 하이퍼파라미터에 따른 세 가지 동작 영역을 제시합니다.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

이 논문은 비모수 변형 정보 병목 (NVIB) 기반 모델의 학습 중 잠재 표현의 불안정성을 해결하기 위해 레니 발산 상한 최소화를 수학적으로 유도한 파라미터 클리핑 전략을 제안함으로써, 더 강력한 프라이버시 보장과 향상된 유틸리티를 동시에 달성하는 프라이버시 보호 언어 모델 구축 방법을 제시합니다.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

이 논문은 ReLU 활성화 함수를 가진 심층 신경망이 $N$ 개의 데이터를 기억하기 위해 필요한 최소 네트워크 크기를 분석하여, 폭 ( $W$ ) 과 깊이 ( $L$ ) 가 $W^2L^2 = \mathcal{O}(N\log(\delta^{-1}))$ 를 만족할 때 임의의 데이터를 기억할 수 있음을 증명하고 이 관계가 최적임을 보임으로써 폭과 깊이 간의 트레이드오프를 명확히 규명했습니다.

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

← 이전 다음 →

cs.LG