A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

이 논문은 확률적 목적 함수와 결정론적 비선형 제약 조건을 가진 최적화 문제를 해결하기 위해, 적응적 정확도 조건을 만족하는 확률적 오라클과 내점법을 결합한 새로운 '신뢰영역 내점법 확률적 순차 2 차 프로그래밍(TR-IP-SSQP)' 알고리즘을 제안하고 그 수렴성과 실용성을 입증합니다.

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad Lavaei2026-03-12🔢 math

SiMPO: Measure Matching for Online Diffusion Reinforcement Learning

이 논문은 확산 기반 강화학습에서 음수 샘플의 피드백을 활용하고 과도한 탐욕적 행동을 방지하기 위해 부호 측도 (signed measure) 를 도입하여 가중치 조정 방식을 일반화한 'SiMPO' 프레임워크를 제안하고, 이를 통해 다양한 보상 환경에서 우수한 성능을 달성함을 보여줍니다.

Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai2026-03-12🤖 cs.LG

Bayesian Hierarchical Models and the Maximum Entropy Principle

이 논문은 하이퍼파라미터를 통해 정의된 계층적 베이지안 모델에서 조건부 사전분포가 최대 엔트로피 분포일 때, 하이퍼파라미터를 적분하여 얻은 종속적인 주변 사전분포 역시 다른 제약 조건 하에서 최대 엔트로피 성질을 가진다는 것을 증명함으로써 계층적 모델 할당이 실제로 어떤 정보를 가정하는지에 대한 통찰을 제공합니다.

Brendon J. Brewer2026-03-12📊 stat

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

이 논문은 노이즈가 있는 사용자 피드백 환경에서 보상 해킹과 오프라인 제약 문제를 해결하며, RLHF 보다 강력하고 해석 가능한 단일 하이퍼파라미터로 추천 시스템의 성능을 극대화하는 지수 보상 가중 SFT 방법론의 이론적 근거와 실증적 우수성을 제시합니다.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

이 논문은 두 데이터셋 간의 선형 관계를 일반화 특이값 분해 (GSVD) 를 통해 분석하여, 각 샘플이 두 데이터셋 중 어느 쪽에 더 잘 설명되는지를 정량화하는 해석 가능한 '각도 점수'를 제안하고 이를 MNIST 데이터셋에서 검증합니다.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Regime-aware financial volatility forecasting via in-context learning

이 논문은 파라미터 미세조정 없이 사전 훈련된 대규모 언어 모델 (LLM) 을 활용하여 시장 레짐에 따라 컨텍스트를 학습하고 조정함으로써 비정상적인 시장 조건 하에서 기존 방법보다 우수한 금융 변동성 예측 성능을 달성하는 레짐 인식 인-컨텍스트 학습 프레임워크를 제안합니다.

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi2026-03-12🤖 cs.LG