Active Advantage-Aligned Online Reinforcement Learning with Offline Data

이 논문은 오프라인 데이터의 풍부함과 온라인 학습의 적응력을 결합하면서도 데이터 품질과 포용성 문제를 해결하기 위해, 정책의 진화적 필요에 따라 오프라인 및 온라인 데이터를 동적으로 우선순위화하는 '신뢰도 인식형 능동 우위 정렬 (A3)' 샘플링 전략을 도입한 A3RL 알고리즘을 제안하고, 이를 통해 기존 방법들보다 우수한 성능을 입증합니다.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

이 논문은 시계열 데이터와 짝을 이루는 텍스트가 시계열의 주기적 특성을 반영한다는 통찰을 바탕으로, 기존 수치 기반 시계열 모델의 아키텍처를 변경하지 않고도 텍스트를 보조 변수로 활용하여 다중 모달 예측 성능을 향상시키는 'Texts as Time Series (TaTS)' 프레임워크를 제안합니다.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

이 논문은 LLM 의 하류 작업 성능 예측 정확도를 높이기 위해 작업 난이도 특성에 따라 클러스터링하는 COD 프레임워크를 제안하고, 이를 통해 예측 가능한 하위 집단의 성능을 전체 평가 세트로 외삽하여 70B 파라미터 모델에서 평균 1.55% 의 낮은 예측 오차를 달성했음을 보여줍니다.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

이 논문은 제한된 유지 데이터만 접근 가능한 상황에서도 제거하려는 데이터와 유지 데이터 간의 간섭을 최소화하기 위해, 제거 데이터의 기울기를 유지 데이터의 기울기들에 수직인 부분공간으로 투영하는 새로운 기계 망각 기법인 OrthoGrad 를 제안하고 그 유효성을 입증합니다.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

이 논문은 제한적이고 노이즈가 포함된 관측 데이터로부터 역학 시스템의 장기적 거동과 불변 구조를 식별하기 위해 가역 신경망을 활용한 '부드러운 프로토타입 동등성 (SPE)' 프레임워크를 제안하며, 이를 통해 진동 시스템 분류 및 생물학적 과정 추적에서 기존 기법보다 우수한 성능을 입증했습니다.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

이 논문은 추천 시스템 및 RAG 와 같은 대규모 데이터 환경에서 관련성과 다양성을 동시에 확보하는 NP-hard 부분집합 선택 문제를 해결하기 위해, 기존 방법보다 20~80 배 빠르면서 정밀도를 최대 4% 포인트 향상시키고 최적 해에 대한 상수 인자 근사 보장을 제공하는 새로운 다단계 접근법인 MUSS 를 제안합니다.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

이 논문은 고비용의 수동 단계 주석이 필요 없이 예측 엔트로피를 기반으로 논리적 전환점을 자동으로 식별하여 효율적인 과정 보상 모델 (EDU-PRM) 을 제안하며, 적은 학습 데이터로도 최첨단 성능을 달성하고 추론 정확도를 높이며 토큰 사용량을 대폭 줄인다는 결과를 보여줍니다.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

이 논문은 K-5 수학 및 독해 평가 문항의 난이도를 예측하기 위해 대규모 언어 모델 (LLM) 을 활용한 직접 추정법과 특징 기반 앙상블 모델 접근법을 비교한 결과, LLM 이 추출한 언어 및 인지 특징을 나무 기반 머신러닝 모델에 입력하는 방식이 가장 높은 예측 정확도를 보였음을 입증했습니다.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

이 논문은 신경망을 베이지안 통계역학 시스템으로 간주하여 데이터 분포의 미세한 변화가 네트워크 구성 요소의 사후 기대값에 미치는 영향을 분석하는 선형 응답 프레임워크를 개발함으로써, 3M 파라미터 트랜스포머 모델에서 다중그램 및 유도 헤드와 같은 기능적 모듈을 분리할 수 있는 저차원 구조를 가진 반응 행렬을 제시합니다.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

이 논문은 이질적인 데이터에서 개별 최적 정책을 찾기 위해 개인 잠재 변수를 활용한 이질적 모델과 페널티를 부과한 비관적 개인화 정책 학습 (P4L) 알고리즘을 제안하며, 약한 부분 커버리지 가정 하에 평균 후회율의 빠른 수렴을 보장하고 기존 방법보다 우수한 성능을 입증합니다.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG