cs.LG 편의 논문 | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

이 논문은 비선형 시변 시스템의 제어에서 심층 강화학습 (DRL) 의 성능을 극대화하고 시간 변화에 대한 강인성을 확보하기 위해, DRL 과 경계 극값 탐색 (ES) 을 결합한 하이브리드 제어기 개발과 그 유효성을 수치 시뮬레이션 및 로스 알라모스 중성자 과학 센터의 입자가속기 빔 수송 시스템 자동 튜닝 사례를 통해 입증했습니다.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

이 논문은 복잡한 문제 해결 능력과 신뢰할 수 있는 검증 없는 테스트 시간 진화의 한계를 극복하기 위해, 구조화된 도구 호출을 통한 다중 턴 추론, 도구 사용과 응답을 분리한 강화 학습, 그리고 도구 기반 검증을 포함한 제안 - 판정 - 업데이트 루프를 통합한 'AlphaApollo'라는 에이전트 추론 시스템을 제시합니다.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

이 논문은 시각적 추론의 정확성과 검증 가능성을 높이기 위해 이미지를 실행 가능한 코드로 역추적하는 'RECODE'라는 에이전트 프레임워크를 제안하고, 이를 통해 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

이 논문은 기존 전문가 병합 기법보다 정교한 라우팅 제어가 가능한 전문가 가지치기가 생성 작업에서 더 우수하다는 점을 규명하고, 라우터 게이트 값과 전문가 활성화 노름을 고려한 새로운 가지치기 기준인 REAP 를 제안하여 대규모 SMoE 모델의 압축 성능을 획기적으로 개선했음을 보여줍니다.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

이 논문은 인간 숙련도 수준의 신뢰성과 효율성을 갖춘 실세계 로봇 조작을 위해 모방 학습과 강화 학습을 통합하고 증류 기법을 통해 실시간 제어를 가능하게 한 'RL-100' 프레임워크를 제안하며, 다양한 실물 로봇 작업에서 100% 성공률을 기록하고 인간 개입 없이도 장기적으로 안정적으로 작동하는 것을 입증했습니다.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

이 논문은 검증 가능한 답변이 없는 일반적 선호도 기반 작업에서 CoT 추론을 통합할 때 발생하는 Bradley-Terry 확률의 구조적 변화를 해결하기 위해, 일관된 몬테카를로 추정자를 기반으로 한 새로운 최적화 알고리즘인 BTPO 를 제안하고 이를 통해 기존 휴리스틱 접근법보다 안정적이고 효과적인 학습을 가능하게 함을 보여줍니다.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

이 논문은 이질적인 다중 에이전트 환경에서 에이전트 간 유사도 (affinity) 에 기반한 편향 및 중요도 보정 메커니즘을 통해 독립 학습 대비 샘플 복잡도를 줄이면서도 개인화와 협업의 이점을 자동으로 조절하는 'AffPCL' 프레임워크를 제안하고, 이질성이 높은 상황에서도 선형 속도 향상을 달성할 수 있음을 이론적으로 증명합니다.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

이 논문은 2D 인코더의 공간적 한계를 극복하고 RGB 만으로 강력한 3D 기하학적 사전 지식을 제공하며, 언어 추론을 보존하기 위해 공간 토큰을 행동 헤드로만 주입하는 새로운 패러다임인 FALCON 을 제안하여 다양한 시뮬레이션 및 실세계 작업에서 최첨단 성능을 달성함을 보여줍니다.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

이 논문은 그래프 기반 모델이 여러 도메인에서 순차적으로 학습할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해, 임베딩 시프트와 결정 경계 편향을 방지하는 지식 분리와 보존 메커니즘을 제안한 GraphKeeper 를 소개합니다.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

이 논문은 다중 클래스 분류에서 과적합을 방지하면서도 기존 로지스틱 기반 보정 기법보다 우수한 성능을 달성하기 위해 구조적 정규화, 견고한 전처리 및 효율적 최적화를 결합한 새로운 사후 보정 방법론을 제안하고 그 유효성을 실험을 통해 입증합니다.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

이 논문은 시계열 기반 모델의 성능 향상을 위해 기존 방법의 계산적 한계를 극복하고 시간적 의존성을 보존하는 경량 데이터 가치 평가 기법인 LTSV를 제안하며, 인-컨텍스트 파인튜닝을 통해 효율적이고 강력한 데이터 기여도 측정을 가능하게 합니다.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

이 논문은 베어링 건강 상태 분류를 위해 미세 조정 없이 시계열 기반 모델의 인-컨텍스트 학습을 활용하여 다양한 운영 조건에서 효과적으로 작동하는 새로운 방법을 제안합니다.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

이 논문은 추론과 학습을 분리하여 비동기 파이프라인을 구축하고, 오프-폴리시 편향 없이 온-폴리시 정확도를 유지하며 NPU 환경에서 기존 RL 프레임워크 대비 3~5 배의 학습 처리량을 달성하는 주기적 비동기 방식을 제안합니다.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

본 논문은 EFISH 신호를 기반으로 전기장 분포를 재구성하는 기존 방법의 한계를 극복하고, 함수 간 매핑을 학습하는 새로운 '디코더-딥온넷 (DDON)' 모델이 더 높은 정확도, 일반화 능력 및 불완전한 입력 데이터에 대한 견고성을 제공함을 입증합니다.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

← 이전 다음 →

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA2^{2}2GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation