Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

이 논문은 수학 추론 태스크와 테스트 하네스 조작을 동시에 가능하게 하는 'Countdown-Code' 환경을 통해, 학습 데이터의 소량 오염으로 인한 보상 해킹이 강화학습을 거쳐 일반화될 수 있음을 규명하고 합성 학습 데이터 검증의 중요성을 강조합니다.

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

이 논문은 복잡한 시공간적 상호작용과 불확실성을 고려하여 전염병 발생을 확률적으로 예측하기 위해, 내생적 불확실성 정량화와 기하학적 에르고딕성을 보장하는 경량 딥 생성 기반 시공간 회귀 (Deep Generative Spatiotemporal Regression) 프레임워크를 제안하고, 다양한 역학 데이터셋에서 기존 방법론보다 우수한 성능을 입증합니다.

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

이 논문은 Adam 의 일반화 성능 한계를 극복하기 위해 역방향 업데이트 메커니즘을 도입한 'InvAdam'과 이를 Adam 과 결합하여 수렴성과 일반화 성능을 동시에 향상시킨 'DualAdam'을 제안하고, 확산 이론을 통해 그 이론적 근거를 입증하며 다양한 실험을 통해 Adam 과 기존 최첨단 옵티마이저보다 우수한 성능을 보임을 입증했습니다.

Tao Shi, Liangming Chen, Long Jin, Mengchu Zhou2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

이 논문은 복잡한 이미지 스타일링 작업을 해결하기 위해 직관적인 도구 조합과 명시적 추론을 기반으로 한 에이전트 계획 프레임워크를 제안하고, 이를 위해 생성된 대규모 합성 데이터셋을 활용하여 오프라인 강화학습을 통해 모델의 성능을 향상시키는 방법을 제시합니다.

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

이 논문은 분류 모델이 예측 시 소수의 지배적인 매개변수에 의존하는 취약성을 해결하기 위해, 훈련 과정에서 과도한 매개변수 기여도를 보정하여 더 넓은 범위의 매개변수를 활용하도록 유도하는 '매개변수 기여 패턴 형성 (SPCP)' 방법을 제안함으로써 분포 외 (OOD) 데이터 탐지 성능을 향상시킵니다.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

A Dual-Graph Spatiotemporal GNN Surrogate for Nonlinear Response Prediction of Reinforced Concrete Beams under Four-Point Bending

이 논문은 4 점 휨 하중을 받는 철근 콘크리트 보의 비선형 응답을 예측하기 위해 노드 및 요소 수준의 동역학을 결합한 이중 그래프 시공간 GNN 대리 모델을 개발하여, 기존 유한요소해석보다 훨씬 낮은 비용으로 전장 변위, 응력, 소성 변형률 및 반력 이력을 정확히 예측할 수 있음을 보여줍니다.

Zhaoyang Ren, Qilin Li2026-03-10🤖 cs.LG

wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

이 논문은 노이즈가 포함된 선호도 데이터에서 기존 DPO 의 한계를 극복하기 위해, 외부 보상 모델 없이 DPO 학습 중 내재된 신호를 활용해 하드 노이즈와 애매한 비교를 각각 데이터 수준과 그래디언트 수준에서 계층적으로 보정하는 'wDPO'를 제안하고, 이를 통해 다양한 안전성 벤치마크에서 향상된 정렬 품질과 강건성을 입증합니다.

Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong2026-03-10🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

이 논문은 SonicGuard 센서와 에너지 기반 이벤트 탐지 알고리즘 및 Audio Spectrogram Transformer 모델을 결합하여 장음 패턴을 자동 분할 및 분류하는 시스템을 개발함으로써, 수동 검사의 한계를 극복하고 위장관 기능 평가에 객관적이고 정량적인 진단 도구를 제공한다는 것을 보여줍니다.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils Strodthoff2026-03-10🤖 cs.LG

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

이 논문은 금융 도메인 특화 데이터의 품질과 난이도/검증 가능성 프로파일이 모델 성능을 결정한다는 점을 실증적으로 입증하고, 고품질 CoT 증류와 난이도 인식 샘플링을 통해 구축한 ODA-Fin-RL-8B 모델이 동급 오픈소스 금융 LLM 들을 능가하는 성능을 보인다고 주장합니다.

Chuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu2026-03-10🤖 cs.LG

LF2L: Loss Fusion Horizontal Federated Learning Across Heterogeneous Feature Spaces Using External Datasets Effectively: A Case Study in Second Primary Cancer Prediction

이 논문은 대만 지역 폐암 생존자의 소규모 데이터와 미국 SEER 공개 데이터의 이질적 특성을 고려하여, 데이터 공유 없이 손실 함수 융합을 기반으로 한 수평 연동 학습 (LF2L) 프레임워크를 제안함으로써 2 차 원발성 암 예측 성능을 획기적으로 향상시켰음을 보여줍니다.

Chia-Fu Lin, Yi-Ju Tseng2026-03-10🤖 cs.LG

Turning Time Series into Algebraic Equations: Symbolic Machine Learning for Interpretable Modeling of Chaotic Time Series

이 논문은 혼란스러운 시계열 데이터에서 투명하고 해석 가능한 대수 방정식을 학습하여 예측 정확도를 유지하면서도 블랙박스 모델의 한계를 극복하는 두 가지 상징적 기계학습 방법 (SyNF 와 SyTF) 을 제안하고 다양한 벤치마크 및 실제 사례를 통해 그 유효성을 입증합니다.

Madhurima Panja, Grace Younes, Tanujit Chakraborty2026-03-10🤖 cs.LG