Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

이 논문은 CityLearn 환경을 활용하여 도시 에너지 관리에 대한 다중 에이전트 강화학습 (MARL) 알고리즘을 다양한 핵심 성과 지표 (KPI) 로 평가하고, 분산 훈련이 중앙 집중식 훈련보다 우수하며 시간적 의존성 학습이 배터리 수명 등 지속 가능성 지표 향상에 기여함을 입증했습니다.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

이 논문은 분산형 거래소의 집중 유동성 공급 문제를 최적 제어 문제로 정식화하고, Ornstein-Uhlenbeck 과정의 평균 회귀 속도를 활용한 딥 강화 학습 기법인 RAmmStein 을 제안하여, 불필요한 재조정 비용을 줄이면서도 자본 효율성을 극대화하는 지능형 유동성 관리 전략을 입증했습니다.

Pranay Anchuri2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

이 논문은 35 개 언어와 코드를 기반으로 현대적 아키텍처를 적용하고 Matryoshka 표현 학습을 통해 효율성을 높인 MrBERT 라는 다국어 인코더 모델 계열을 소개하며, 카탈로니아어 및 스페인어 특화 작업과 의료·법률 같은 전문 분야에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

이 논문은 대규모 앱 스토어 검색 시스템에서 행동 기반 데이터의 부족을 해결하기 위해 미세 조정된 LLM 을 활용해 텍스트 관련성 라벨을 대량 생성하고, 이를 순위 결정 모델에 통합함으로써 오프라인 성능과 전 세계 A/B 테스트에서 전환율을 유의미하게 향상시켰음을 보여줍니다.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

이 논문은 FP4 정밀도의 어텐션 연산에서 발생하는 학습 불안정성을 해결하기 위해 역전파 시 정밀도 일치를 보장하는 새로운 양자화 인식 학습 (QAT) 방법인 Attn-QAT 를 제안하고, 이를 통해 어텐션 품질 저하 없이 RTX 5090 에서 최대 1.5 배의 속도 향상을 달성함을 보여줍니다.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

이 논문은 ECG 신호에 대한 멀티모달 모델의 추론 능력을 평가하기 위해 신호 패턴 인식 (Perception) 과 임상 지식 적용 (Deduction) 을 분리하여 각각 코드 생성과 임상 기준 데이터베이스 정합성 검증을 통해 확장 가능하고 엄격하게 평가하는 새로운 프레임워크를 제안합니다.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

이 논문은 2026 년 포뮬러 1 의 새로운 에너지 규정 하에서 경쟁 차량의 숨겨진 상태를 추정하는 30 상태 은닉 마르코프 모델 (HMM) 과 이를 기반으로 에너지 전략을 결정하는 심층 Q-네트워크 (DQN) 로 구성된 2 층 프레임워크를 제시하여, 경쟁자의 의도적 기만 전술을 탐지하고 최적의 에너지 배분 정책을 수립할 수 있음을 보여줍니다.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

이 논문은 DISPLACE-M 챌린지 트랙 1 을 위해 제안된 TCG CREST 시스템이 의료 대화 환경에서 SpeechBrain 기반 모듈식 파이프라인보다 DER 를 약 39% 개선한 Diarizen 기반 하이브리드 엔드투엔드 신경망 diarization 시스템을 통해 개발 세트에서 10.37%, 평가 세트에서 9.21% 의 diarization 오류율 (DER) 을 달성하여 11 개 팀 중 6 위를 기록한 결과를 보고합니다.

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

본 논문은 메콩강 삼각주의 무형문화유산 이미지 분류에서 데이터 부족과 높은 시각적 유사성으로 인한 과적합 문제를 해결하기 위해, CoAtNet 아키텍처와 모델 수프 (Model Soups) 기법을 결합하여 분산을 줄이고 일반화 성능을 향상시킨 새로운 프레임워크를 제안하고, ICH-17 데이터셋에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Embedding interpretable 1\ell_1-regression into neural networks for uncovering temporal structure in cell imaging

이 논문은 1\ell_1-규제 벡터 자기회귀 (VAR) 모델을 컨볼루션 오토인코더에 임베딩하여 세포 영상 데이터의 희소 시계열 구조를 해석 가능하게 추출하고, 비희소 공간 정보는 스킵 연결을 통해 분리 처리하는 새로운 딥러닝 프레임워크를 제안합니다.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

이 논문은 Video Diffusion Transformers 가 텍스트 기반 운동 개념을 어떻게 비디오로 변환하는지 이해하기 위해, 그라디언트 계산 없이 운동과 비운동 개념 모두에 대한 시공간적 국소화 맵을 생성하는 새로운 해석 가능한 방법론 (GramCol 및 IMAP) 을 제안합니다.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

이 논문은 SFT 와 RL 의 시너지를 극대화하고 정책 엔트로피 기반의 동적 조정 및 그라디언트 외과 기법을 도입하여 GUI 에이전트의 지속적인 학습 성능을 향상시키고, 이를 평가하기 위한 AndroidControl-CL 벤치마크를 제안하는 CGL 프레임워크를 소개합니다.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

이 논문은 이차 모멘트 정규화와 정지 시간/마팅겔 분석을 통해, 고확률 수렴에서 Adam 이 신뢰도 파라미터에 대해 δ1/2\delta^{-1/2} 의존성을 보이는 반면 SGD 는 적어도 δ1\delta^{-1} 의존성을 갖는다는 이론적 차이를 최초로 증명하여 Adam 의 SGD 대비 우월한 성능을 설명합니다.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG