Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

이 논문은 노이즈가 있는 사용자 피드백 환경에서 보상 해킹과 오프라인 제약 문제를 해결하며, RLHF 보다 강력하고 해석 가능한 단일 하이퍼파라미터로 추천 시스템의 성능을 극대화하는 지수 보상 가중 SFT 방법론의 이론적 근거와 실증적 우수성을 제시합니다.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

이 논문은 두 데이터셋 간의 선형 관계를 일반화 특이값 분해 (GSVD) 를 통해 분석하여, 각 샘플이 두 데이터셋 중 어느 쪽에 더 잘 설명되는지를 정량화하는 해석 가능한 '각도 점수'를 제안하고 이를 MNIST 데이터셋에서 검증합니다.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Regime-aware financial volatility forecasting via in-context learning

이 논문은 파라미터 미세조정 없이 사전 훈련된 대규모 언어 모델 (LLM) 을 활용하여 시장 레짐에 따라 컨텍스트를 학습하고 조정함으로써 비정상적인 시장 조건 하에서 기존 방법보다 우수한 금융 변동성 예측 성능을 달성하는 레짐 인식 인-컨텍스트 학습 프레임워크를 제안합니다.

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi2026-03-12🤖 cs.LG

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

이 논문은 비국소적 정보의 집계와 국소적 비선형 예측을 명시적으로 분리하여 학습 가능한 통합 커널을 도입함으로써, 기후 과정의 비국소적 특성을 해석 가능하게 학습하면서도 과적합을 줄이고 매개변수 효율성을 높이는 프레임워크를 제안합니다.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

이 논문은 비정상적 선형 밴드트 환경에서 고정 예산 하의 최적 암 식별 (BAI) 문제를 연구하여, 기존 G-최적 설계의 과도하게 보수적인 복잡도 한계를 극복하는 암 집합 의존적 하한을 수립하고, 이를 기반으로 한 'Adjacent-BAI' 알고리즘이 이 하한과 일치하는 최적의 성능을 보임을 증명합니다.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam Fazel2026-03-12📊 stat

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

이 논문은 교사의 실패로 인한 '교사 한계'를 극복하고 학생 모델의 추론 능력을 향상시키기 위해, 엔트로피 기반의 힌트 주입, 퍼플렉시티-불확실성 비율 필터링, 그리고 점진적 커리큘럼 진화를 통합한 RL-free 프레임워크인 HEAL을 제안합니다.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

이 논문은 GPT 스타일의 믹스처 오브 전문가 (MoE) 모델에서 총 연산량과 희소도에 따라 전문가 레이어와 어텐션 레이어 간의 최적 연산 배분 비율을 결정하는 새로운 스케일링 법칙을 제안하여, 고정된 연산 예산 내에서 MoE 모델의 효율적인 설계와 성능 최적화를 위한 실용적인 지침을 제공합니다.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu2026-03-12🤖 cs.LG