Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

이 논문은 불확실한 교란 분포를 가진 마르코프 결정 과정 (MDP) 에 대해 경험적 분포 기반의 모호성 집합을 정의하고, 약수렴과 거리 함수 수렴을 연결하여 유한 표본에서의 높은 확률 성능 보장, 수렴 속도, 및 표본 복잡도 한계를 증명하는 데이터 기반 강건 MDP 프레임워크를 제시합니다.

Sivaramakrishnan RamaniWed, 11 Ma🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

이 논문은 복잡한 의료 시나리오에서 다수결 투표의 한계를 극복하고 Med-RPM 을 활용한 세분화된 전문가 기반 보상 신호로 강화 학습을 유도함으로써, 의료 AI 의 추론 신뢰성과 확장성을 획기적으로 개선하는 MAPLE 프레임워크를 제안합니다.

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning GuoWed, 11 Ma🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

이 논문은 사전 훈련된 오토리거시티브 정규화 흐름 (AR-NF) 모델의 준결정적 결합 (coupling) 을 증류하여 독립 결합이나 최적 수송 결합보다 우수한 성능을 내면서도 교사 모델 자체를 개선하는 새로운 '정규화 흐름 매칭 (NFM)' 방법을 제안합니다.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

이 논문은 완전 연결 네트워크에 국한되거나 근사적인 기존 방법의 한계를 극복하기 위해, 합성곱 신경망 (CNN) 의 기하학적 구조를 정확히 반영하는 폐쇄형 평탄도 측정치를 제안하고 이를 통해 CNN 모델의 일반화 성능을 정밀하게 평가하고 아키텍처 설계에 활용할 수 있음을 입증합니다.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

이 논문은 중앙 집중식 처리의 한계를 극복하기 위해 하드웨어와 물리 법칙을 공동으로 안내하는 분산 과학 머신러닝 프레임워크 'EPIC'을 제안하여, 경량 인코딩과 물리 인식 디코딩을 통해 통신 지연과 에너지 소모를 획기적으로 줄이면서도 물리적 정밀도를 유지하거나 향상시킨다는 점을 보여줍니다.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

이 논문은 LLM 기반 계획과 강화학습을 양방향으로 결합하여 실행 피드백을 통해 기술 명세를 반복적으로 정제하는 'SCALAR' 프레임워크를 제안하며, Craftax 환경에서 기존 최선 방법론 대비 1.9 배 향상된 성능을 입증했습니다.

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia SycaraWed, 11 Ma🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

본 논문은 원격 환자 모니터링 데이터를 실시간으로 분석하여 개별 임상진료자보다 높은 민감도로 응급 상황을 식별하고, 확장 가능한 비용 효율적인 임상 분류를 가능하게 하는 자율 AI 에이전트 'Sentinel'의 개발과 유효성을 입증했습니다.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

이 논문은 시뮬레이션 오차를 의사결정 영향도에 따라 재가중하는 적대적 보정 메커니즘과 시뮬레이션 불확실성 하에서 정책 학습을 안정화하는 그룹 상대적 교란 전략을 통해, 공급망 등 임무 중대 분야에서 견고한 시뮬레이션-의사결정 학습 프레임워크인 Sim2Act 를 제안합니다.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

이 논문은 로봇 학습의 성능을 높이기 위해 검증 데이터의 손실 감소에 기여하는 정도를 기반으로 각 시연 데이터의 품질을 정량화하고, 영향 함수 (influence functions) 를 활용해 고품질 데이터를 체계적으로 선별하는 'Quality over Quantity (QoQ)' 방법을 제안합니다.

Haeone Lee, Taywon Min, Junsu Kim, Sinjae Kang, Fangchen Liu, Lerrel Pinto, Kimin LeeWed, 11 Ma🤖 cs.LG

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

이 논문은 Wolfram 의 초그래프 물리학과 Vanchurin 의 신경망 우주론을 기반으로, 인과 불변 초그래프 기반의 지속적 관찰자가 Conant-Ashby 좋은 조절자 정리를 만족하고 자연 기울기 하강법이 유일한 학습 규칙임을 증명하며, 이를 통해 다양한 수렴 모델에 따라 관찰자가 피셔 계량 텐서의 고유 방향을 따라 서로 다른 Vanchurin 체제에 동시에 존재할 수 있음을 규명합니다.

Max ZhuravlevWed, 11 Ma🤖 cs.LG

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

이 논문은 동적인 차량 환경에서 지연을 최소화하기 위해 재구성 가능 지능형 표면 (RIS) 과 의미 기반 통신을 통합한 프레임워크를 제안하고, 근접 정책 최적화 (PPO) 와 선형 프로그래밍 (LP) 을 결합한 하이브리드 최적화 기법을 통해 기존 방법 대비 평균 종단 간 지연을 40~50% 감소시키는 효과를 입증했습니다.

Wei Feng, Jingbo Zhang, Qiong Wu, Pingyi Fan, Qiang FanWed, 11 Ma🤖 cs.LG

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

이 논문은 2007 년부터 2024 년까지의 데이터에 기반하여, Qwen3 모델로 미세 조정된 LLM 을 활용해 뉴스 감성을 추출하고 이를 기존 표형 데이터와 결합한 LSTM 모델이 시장 변동성이 높은 기간에 알루미늄 가격 예측 및 투자 수익률 (샤프 지수 1.04) 을 기존 모델보다 크게 향상시킨다는 것을 입증했습니다.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI