Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

이 논문은 비선형 시변 시스템의 제어에서 심층 강화학습 (DRL) 의 성능을 극대화하고 시간 변화에 대한 강인성을 확보하기 위해, DRL 과 경계 극값 탐색 (ES) 을 결합한 하이브리드 제어기 개발과 그 유효성을 수치 시뮬레이션 및 로스 알라모스 중성자 과학 센터의 입자가속기 빔 수송 시스템 자동 튜닝 사례를 통해 입증했습니다.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

AlphaApollo: A System for Deep Agentic Reasoning

이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

이 논문은 기존 전문가 병합 기법보다 정교한 라우팅 제어가 가능한 전문가 가지치기가 생성 작업에서 더 우수하다는 점을 규명하고, 라우터 게이트 값과 전문가 활성화 노름을 고려한 새로운 가지치기 기준인 REAP 를 제안하여 대규모 SMoE 모델의 압축 성능을 획기적으로 개선했음을 보여줍니다.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

이 논문은 인간 숙련도 수준의 신뢰성과 효율성을 갖춘 실세계 로봇 조작을 위해 모방 학습과 강화 학습을 통합하고 증류 기법을 통해 실시간 제어를 가능하게 한 'RL-100' 프레임워크를 제안하며, 다양한 실물 로봇 작업에서 100% 성공률을 기록하고 인간 개입 없이도 장기적으로 안정적으로 작동하는 것을 입증했습니다.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

이 논문은 검증 가능한 답변이 없는 일반적 선호도 기반 작업에서 CoT 추론을 통합할 때 발생하는 Bradley-Terry 확률의 구조적 변화를 해결하기 위해, 일관된 몬테카를로 추정자를 기반으로 한 새로운 최적화 알고리즘인 BTPO 를 제안하고 이를 통해 기존 휴리스틱 접근법보다 안정적이고 효과적인 학습을 가능하게 함을 보여줍니다.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

이 논문은 이질적인 다중 에이전트 환경에서 에이전트 간 유사도 (affinity) 에 기반한 편향 및 중요도 보정 메커니즘을 통해 독립 학습 대비 샘플 복잡도를 줄이면서도 개인화와 협업의 이점을 자동으로 조절하는 'AffPCL' 프레임워크를 제안하고, 이질성이 높은 상황에서도 선형 속도 향상을 달성할 수 있음을 이론적으로 증명합니다.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

이 논문은 그래프 기반 모델이 여러 도메인에서 순차적으로 학습할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해, 임베딩 시프트와 결정 경계 편향을 방지하는 지식 분리와 보존 메커니즘을 제안한 GraphKeeper 를 소개합니다.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

이 논문은 시계열 기반 모델의 성능 향상을 위해 기존 방법의 계산적 한계를 극복하고 시간적 의존성을 보존하는 경량 데이터 가치 평가 기법인 LTSV를 제안하며, 인-컨텍스트 파인튜닝을 통해 효율적이고 강력한 데이터 기여도 측정을 가능하게 합니다.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

본 논문은 EFISH 신호를 기반으로 전기장 분포를 재구성하는 기존 방법의 한계를 극복하고, 함수 간 매핑을 학습하는 새로운 '디코더-딥온넷 (DDON)' 모델이 더 높은 정확도, 일반화 능력 및 불완전한 입력 데이터에 대한 견고성을 제공함을 입증합니다.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

SA2^{2}GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

본 논문은 계층적 구조 의미 모델링의 부족을 해결하기 위해 구조 인식 의미 증강, 정보 병목 메커니즘, 전문가 적응 라우팅 등을 도입하여 도메인 노이즈와 적대적 공격에 강인한 그래프 기반 모델 SA2^{2}GFM 을 제안하고, 다양한 분류 작업에서 기존 최첨단 모델보다 뛰어난 성능과 견고성을 입증합니다.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

이 논문은 강화학습의 학습 안정성과 효율성을 높이기 위해 샘플 난이도를 기반으로 힌트 비율을 동적으로 조정하고, 일관성 기반 그래디언트 조절과 롤아웃 난이도 사후확률을 활용한 이점 추정을 도입한 'ADHint'라는 새로운 방법을 제안합니다.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG