Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

이 논문은 강화학습 (RL) 의 한계를 보완하고 새로운 지식 습득을 가능하게 하기 위해 RL 과 온라인 파인튜닝을 교차적으로 수행하는 'ReLIFT'라는 새로운 훈련 방식을 제안하며, 이를 통해 기존 모델의 능력을 넘어선 추론 성능 향상과 데이터 효율성을 입증했습니다.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

이 논문은 기존 한아비 (Hanabi) 환경의 한계를 극복하고 제로샷 조율 (ZSC) 연구의 새로운 표준이 될 수 있도록, 불확실한 힌트와 이동하는 카드를 추적하며 공유된 신념을 구축해야 하는 새로운 다중 에이전트 강화학습 벤치마크인 '요카이 학습 환경 (YLE)'을 제안하고 기존 최첨단 방법론들의 한계를 입증합니다.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas Bulling2026-03-12🤖 cs.AI

Universal Dynamics with Globally Controlled Analog Quantum Simulators

이 논문은 전역 제어 필드를 가진 아날로그 양자 시뮬레이터가 보편적 양자 연산이 가능함을 이론적으로 증명하고, '직접 양자 최적 제어' 기법을 통해 실제 실험에서 3 체 상호작용 및 위상 동역학을 구현하여 양자 정보 처리의 새로운 가능성을 제시합니다.

Hong-Ye Hu, Abigail McClain Gomez, Liyuan Chen, Aaron Trowbridge, Andy J. Goldschmidt, Zachary Manchester, Frederic T. Chong, Arthur Jaffe, Susanne F. Yelin2026-03-12⚛️ quant-ph

Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems

이 논문은 목적 함수가 변하는 매개변수 최적 제어 문제를 위해 오프라인에서 학습된 신경 기저 함수 집합을 활용하여, 온라인에서 데이터 투영이나 문제 명세 직접 매핑을 통해 재계산 없이도 실시간으로 최적에 가까운 제어를 수행할 수 있는 제로샷 전이 가능 솔루션 방법을 제안합니다.

Xingjian Li, Kelvin Kan, Deepanshu Verma, Krishna Kumar, Stanley Osher, Ján Drgona2026-03-12🤖 cs.LG

Global Minimizers of Sigmoid Contrastive Loss

이 논문은 시그모이드 손실 함수에 학습 가능한 역온도와 편향을 도입하여 (m,brel)(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})-군집이라는 새로운 조합론적 구조를 통해 SigLIP 의 성공, 모달리티 간격 현상, 그리고 고품질 표현을 위한 필요 차원을 이론적으로 설명하고, 이를 기반으로 한 손실 함수의 재파라미터화를 제안합니다.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

Proposing a Framework for Machine Learning Adoption on Legacy Systems

이 논문은 레거시 시스템의 업그레이드 비용과 운영 중단 문제를 해결하기 위해 ML 모델 수명 주기와 생산 환경을 전략적으로 분리하는 경량 API 기반 프레임워크를 제안하여, 인간 개입을 통한 상호작용적 제어와 무중단 유지보수를 가능하게 함으로써 제조업의 경쟁력을 강화하는 방안을 제시합니다.

Ashiqur Rahman, Hamed Alhoori2026-03-12🤖 cs.LG

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

이 논문은 기존 프롬프트 기반 지속 학습 방법들의 효율성과 성능 간 트레이드오프를 해결하기 위해 희소 혼합 전문가 (MoE) 구조를 도입하여 프롬프트를 여러 '전문가'로 구성하고, 동적 선택 메커니즘과 적응형 노이즈 등을 통해 간섭을 줄이면서 파라미터와 계산 비용을 대폭 절감한 'SMoPE' 프레임워크를 제안합니다.

Minh Le, Bao-Ngoc Dao, Huy Nguyen, Quyen Tran, Anh Nguyen, Nhat Ho2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

이 논문은 다양한 추론 모델과 예산 간의 성능과 비용 트레이드오프를 해결하기 위해, 심리측정학에 영감을 받아 질문 난이도와 모델 능력을 학습하여 최적의 모델 - 예산 쌍으로 쿼리를 라우팅하는 경량화되고 해석 가능한 RADAR 프레임워크를 제안합니다.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

이 논문은 웨어러블 EEG 를 활용한 수면 단계 분류에서 라벨 효율성을 극대화하기 위해 자기지도 학습 (SSL) 을 체계적으로 평가한 결과, SSL 이 라벨이 부족한 상황에서도 기존 지도 학습보다 최대 10% 높은 성능을 달성하고 임상 수준 정확도를 보여준다는 것을 입증했습니다.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI