Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

이 논문은 그래프 흐름 모델 (GFM) 의 전이 확률에 대한 분석적 표현을 도출하고 그래프의 국소적 탐색을 가능하게 하는 정제 전략을 통해 검증 가능한 보상에 기반한 온라인 강화학습 프레임워크인 Graph-GRPO 를 제안하며, 이를 통해 분자 최적화 등 다양한 작업에서 최첨단 성능을 달성함을 보여줍니다.

Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang2026-03-12🤖 cs.LG

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

이 논문은 레이블 노이즈가 포함된 SGD 를 사용하는 2 층 선형 신경망의 학습 역학을 분석하여, 노이즈가 모델이 '게으른(regime)' 상태에서 '풍부한(rich)' 상태로 전환되도록 유도하고 일반화 성능을 향상시키는 두 단계 학습 메커니즘을 규명했다고 요약할 수 있습니다.

Tongcheng Zhang, Zhanpeng Zhou, Mingze Wang, Andi Han, Wei Huang, Taiji Suzuki, Junchi Yan2026-03-12🤖 cs.LG

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

이 논문은 기존 방법의 한계를 극복하기 위해 시공간 데이터의 시간과 공간 차원을 모두 압축하는 'STemDist'라는 새로운 데이터 증류 기법을 제안하여, 기존 방법 대비 훈련 속도를 최대 6 배, 메모리 효율을 최대 8 배 향상시키면서 예측 오차를 최대 12% 까지 낮추는 성과를 입증했습니다.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin2026-03-12🤖 cs.LG

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

이 논문은 다양한 작동 조건에서 발생하는 분포 불일치 문제를 해결하기 위해, 열화 단계 동기화 배치 샘플링 (DSSBS) 과 교차 도메인 정렬 융합 대형 오토인코더 (CAFLAE) 를 도입하여 건강 지표 (HI) 학습의 정확도를 기존 최첨단 방법 대비 평균 24.1% 향상시킨 도메인 적응 프레임워크를 제안합니다.

Jungho Choo, Hanbyeol Park, Gawon Lee, Yunkyung Park, Hyerim Bae2026-03-12🤖 cs.LG

Adaptive Active Learning for Regression via Reinforcement Learning

이 논문은 강화 학습을 활용하여 탐색과 추론의 균형을 동적으로 조절하는 '가중치 개선 그리드 샘플링 (WiGS)'을 제안함으로써, 기존 개선 그리드 샘플링 (iGS) 보다 불규칙한 데이터 밀도 환경에서 더 높은 정확도와 레이블링 효율성을 달성하는 적응형 회귀 학습 방법을 제시합니다.

Simon D. Nguyen, Troy Russo, Kentaro Hoffman, Tyler H. McCormick2026-03-12📊 stat

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

이 논문은 저비트 LLM 학습 시 발생하는 수치적 불안정성의 주된 원인이 랭크 1 의 평균 편향임을 규명하고, 이를 제거하는 간단한 평균 차감 기법을 통해 BF16 수준의 안정성과 성능을 FP4 양자화 환경에서도 효율적으로 회복할 수 있음을 제시합니다.

Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang2026-03-12🤖 cs.LG

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

이 논문은 텍스트 프롬프트로 지정하기 어려운 특정 인스턴스 (예: 개인 얼굴) 를 선택적으로 잊게 하되 모델의 나머지 기능은 유지하기 위해 이미지 편집, 시간 단계 인식 가중치, 기울기 수술을 활용한 프롬프트 없는 확산 모델 인스턴스 언러닝 방법을 제안합니다.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

이 논문은 다양한 시간 해상도의 입력을 활용하여 다중 해상도 ConvLSTM 앙상블 프레임워크를 제안함으로써, 단계별 굴착 중 옹벽 변형의 장기 예측 시 오류 누적을 완화하고 예측 정확도와 안정성을 향상시켰음을 보여줍니다.

Jihoon Kim (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea), Heejung Youn (Department of Civil,Environmental Engineering, Hongik University, Seoul, Republic of Korea)2026-03-12🤖 cs.LG

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

이 논문은 10~100 MeV 대역의 강전하 입자 빔에서 Vlasov-Poisson 계를 기반으로 한 유전 함수 이론과 Prometheus 라는 unsupervised 학습 모델을 결합하여, 임계 밀도 이상에서 감쇠가 없는 랭뮤어 파동 존재를 증명하고 입자 - 빔 전이가 3D 이징 보편성 부류에 속함을 규명하며 PIC 시뮬레이션을 통해 이론적 예측을 검증했습니다.

Brandon Yee, Wilson Collins, Michael Iofin, Jiayi Fu2026-03-12🔬 physics

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

이 논문은 제한된 실험 데이터만으로도 강화학습 기반 예측 보행 시뮬레이션의 생체역학적 정확도와 일반화 능력을 향상시키기 위해 신경생리학적 구조인 근육 시너지 (muscle synergy) 를 제어 공간에 통합한 새로운 프레임워크를 제안하고 그 유효성을 입증합니다.

Ilseung Park (Carnegie Mellon University), Eunsik Choi (Seoul National University), Jangwhan Ahn (UNC-Chapel Hill and NC State University), Jooeun Ahn (Seoul National University)2026-03-12🤖 cs.LG

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

이 논문은 오버파라미터화된 선형 모델에서 듀얼 스페이스 프리컨디셔닝 경사 하강법 (정규화 경사 하강법, 그래디언트 클리핑, Adam 등 포함) 의 수렴성을 새로운 Bregman 발산 기법을 통해 증명하고, 등방성 프리컨디셔너의 경우 초기화에서 최소 거리의 해로 수렴하여 표준 경사 하강법과 동일한 암시적 편향을 가짐을 보여줍니다.

Reza Ghane, Danil Akhtiamov, Babak Hassibi2026-03-12📊 stat

JEDI: Jointly Embedded Inference of Neural Dynamics

이 논문은 제한적이고 노이즈가 많은 신경 기록 데이터에서도 다양한 과제를 포괄하는 단일 통합 모델로 뇌의 역동적 메커니즘을 확장 가능하고 일반화되게 추론할 수 있는 계층적 모델 'JEDI'를 제안하고, 이를 통해 신경 역학의 공유 구조를 밝히고 실제 원숭이 운동 피질 데이터에 적용하여 운동 제어의 기작적 통찰을 도출함을 보여줍니다.

Anirudh Jamkhandi, Ali Korojy, Olivier Codol, Guillaume Lajoie, Matthew G. Perich2026-03-12🧬 q-bio

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

이 논문은 증거 기반 주장 검증을 통해 선호도를 추출하고 직접 선호도 최적화 (DPO) 를 적용하여 임상 요약의 사실성 (unsupported claim) 을 크게 줄이면서도 정보량을 유지하는 VERI-DPO 모델을 제안합니다.

Weixin Liu, Congning Ni, Qingyuan Song, Susannah L. Rose, Christopher Symons, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin2026-03-12💬 cs.CL

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

이 논문은 제한된 컴퓨팅 자원에서 그래프 어텐션 메커니즘과 GPT-4o-mini 를 결합한 경량 하이브리드 프레임워크를 제안하여, 노이즈가 있는 데이터에서도 아만존스 체스 게임에서 기존 베이스라인과 교사 모델보다 뛰어난 성능을 달성함을 입증합니다.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

이 논문은 프론티어 LLM 의 지시 계층 구조 (IH) 강인성을 향상시키기 위해 고안된 강화 학습 데이터셋 'IH-Challenge'를 소개하고, 이를 통해 GPT-5-Mini 의 지시 계층 안정성을 10% 이상 개선하면서도 안전성과 유용성을 동시에 확보한 결과를 제시합니다.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI