ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

이 논문은 에이전트 강화학습 (ARL) 의 불안정성을 해결하기 위해 체계적인 분석 프레임워크인 ARLArena 를 제안하고, 이를 통해 정책 경사를 네 가지 핵심 차원으로 분해하여 안정적이고 강력한 에이전트 학습 방법인 SAMPO 를 도출했습니다.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

이 논문은 예측과 행동, 결과 간의 공유 정보 비율인 '이중 예측성 (bipredictability)'을 새로운 척도로 제시하여 현재의 AI 가 행동 능력 (agency) 은 갖췄으나 학습 효율성을 모니터링하고 적응하는 진정한 지성 (intelligence) 은 결여되어 있음을 증명하고, 이를 개선하기 위한 생물학적 피드백 아키텍처를 제안합니다.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

이 논문은 대규모 앱 스토어 검색 시스템에서 행동 기반 데이터의 부족을 해결하기 위해 미세 조정된 LLM 을 활용해 텍스트 관련성 라벨을 대량 생성하고, 이를 순위 결정 모델에 통합함으로써 오프라인 성능과 전 세계 A/B 테스트에서 전환율을 유의미하게 향상시켰음을 보여줍니다.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

이 논문은 FP4 정밀도의 어텐션 연산에서 발생하는 학습 불안정성을 해결하기 위해 역전파 시 정밀도 일치를 보장하는 새로운 양자화 인식 학습 (QAT) 방법인 Attn-QAT 를 제안하고, 이를 통해 어텐션 품질 저하 없이 RTX 5090 에서 최대 1.5 배의 속도 향상을 달성함을 보여줍니다.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

이 논문은 ECG 신호에 대한 멀티모달 모델의 추론 능력을 평가하기 위해 신호 패턴 인식 (Perception) 과 임상 지식 적용 (Deduction) 을 분리하여 각각 코드 생성과 임상 기준 데이터베이스 정합성 검증을 통해 확장 가능하고 엄격하게 평가하는 새로운 프레임워크를 제안합니다.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Extended Empirical Validation of the Explainability Solution Space

이 기술 보고서는 직원 이직 예측과 도시 자원 할당이라는 두 가지 상이한 도메인에서의 검증 결과를 바탕으로, 설명 가능한 AI 전략 설계를 위한 '설명성 솔루션 공간 (ESS)' 프레임워크가 도메인 독립적이며 거버넌스 역할과 이해관계자 구성에 따라 체계적으로 적응하는 일반화된 의사결정 지원 도구임을 입증합니다.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

이 논문은 2026 년 포뮬러 1 의 새로운 에너지 규정 하에서 경쟁 차량의 숨겨진 상태를 추정하는 30 상태 은닉 마르코프 모델 (HMM) 과 이를 기반으로 에너지 전략을 결정하는 심층 Q-네트워크 (DQN) 로 구성된 2 층 프레임워크를 제시하여, 경쟁자의 의도적 기만 전술을 탐지하고 최적의 에너지 배분 정책을 수립할 수 있음을 보여줍니다.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell 은 LLM 기반의 시맨틱 통합기와 적응형 몬테카를로 트리 탐색 엔진을 결합하여 단일 세포 교란 연구에서 발생하는 시맨틱 및 분포 불일치 문제를 자동으로 해결하고, 다양한 데이터셋에서 전문가 수준의 모델링 성능을 달성하는 엔드 투 엔드 에이전트 프레임워크입니다.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

본 논문은 메콩강 삼각주의 무형문화유산 이미지 분류에서 데이터 부족과 높은 시각적 유사성으로 인한 과적합 문제를 해결하기 위해, CoAtNet 아키텍처와 모델 수프 (Model Soups) 기법을 결합하여 분산을 줄이고 일반화 성능을 향상시킨 새로운 프레임워크를 제안하고, ICH-17 데이터셋에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG