Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
이 논문은 데이터 수집 및 정책 배포 비용이 큰 환경에서 단일 에이전트 및 연방 강화학습을 위해 선형 번인 비용과 로그 스위칭/통신 비용을 달성하면서 최적의 후회 (regret) 를 보장하는 두 가지 새로운 모델 없는 알고리즘을 제안하고 이론적 보장을 제시합니다.
2278 편의 논문
이 논문은 데이터 수집 및 정책 배포 비용이 큰 환경에서 단일 에이전트 및 연방 강화학습을 위해 선형 번인 비용과 로그 스위칭/통신 비용을 달성하면서 최적의 후회 (regret) 를 보장하는 두 가지 새로운 모델 없는 알고리즘을 제안하고 이론적 보장을 제시합니다.
이 논문은 실제 세계의 다변량 시계열 데이터에서 발생하는 채널 간 의존성, 비동기적 샘플링, 결측치 문제를 동시에 해결하기 위해 제안된 'ChannelTokenFormer'라는 트랜스포머 기반 프레임워크를 소개하고, 이를 통해 다양한 실제 환경에서 뛰어난 예측 성능과 견고성을 입증했습니다.
이 논문은 정보 캐스케이드와 사용자 간의 상호작용을 공동으로 모델링하기 위해 제안된 '혼합 상호작용 캐스케이드 (MIC)' 모델을 통해 기존 방법보다 우수한 정보 확산 예측 성능과 통찰력 있는 시각화를 달성함을 보여줍니다.
이 논문은 저자원 언어의 도메인 불변 표현을 학습하기 위해 지도 대조 학습 (SCL) 기반의 'ConLID'를 제안하여, 고자원 언어의 성능을 유지하면서 저자원 언어의 도메인 외 데이터에서 언어 식별 정확도를 3.2% 포인트 향상시켰다고 요약할 수 있습니다.
이 논문은 동적 평활화 정규화를 적용한 반복 재가중 최소제곱법 (IRLS) 변형이 임의의 초기화에서 기저 부분공간으로 선형 수렴함을 증명하여, 로버스트 부분공간 복원 및 비볼록 리만 다양체 상의 IRLS 에 대한 최초의 전역 수렴 보장을 제시합니다.
이 논문은 그론월 부등식을 사용하여 볼록 및 비볼록 목적 함수 하에서 확률적 경사 하강법 (SGD) 과 확률적 헤비 볼 (SHB) 알고리즘의 마지막 반복에 대한 수렴 속도를 분석하고 새로운 수렴 오차 한계를 제시합니다.
본 논문은 지반공학의 압밀 문제에 DeepONet 아키텍처를 적용하여 물리 기반 모델 (Model 3) 과 푸리에 특징이 강화된 3D 모델 (Model 4) 의 성능을 비교 평가함으로써, 기존 수치 해석 대비 최대 1,000 배의 속도 향상과 불확실성 정량화 가속화를 가능하게 하는 과학적 머신러닝의 잠재력을 입증했습니다.
이 논문은 물리적 사전 지식 (관성, 감쇠, 학습된 퍼텐셜 등) 을 기반으로 한 언더댐프드 랑베인 방정식을 잠재 공간의 시간 진화에 적용하여, 생물학적 신경 집단의 진동 및 흐름 특성을 효과적으로 모델링하고 기존 최첨단 방법들보다 우수한 성능을 보이는 'LangevinFlow'라는 시퀀스 변분 오토인코더를 제안합니다.
이 논문은 다양한 신체 구조의 데이터를 광학 흐름을 통해 통합하여 세계 모델을 사전 학습한 후, 이를 타겟 로봇의 소량 데이터로 미세 조정하고 가치 함수를 활용해 행동 복제 정책을 최적화함으로써 저데이터 환경에서 로봇 시각-운동 정책의 성능을 획기적으로 향상시키는 '잠재 정책 조종 (LPS)' 방법을 제안합니다.
이 논문은 투명하고 검증 가능한 제어 정책 개발을 위해 멀티모달 대형 언어 모델과 진화적 탐색을 결합한 MLES 방식을 제안하며, 시각적 피드백을 통해 정책 생성을 자동화하고 PPO 와 유사한 성능을 달성함을 보여줍니다.
이 논문은 다양한 소스로부터의 데이터 분포 변화와 샘플 크기 편차를 해결하면서도 전체 정확도와 소스별 이질성을 동시에 보장하기 위해 교차 도메인 잔차 학습과 적응형 클러스터링을 결합한 메타학습 기법인 'CTRL'을 제안하고, 스위치 난민 프로그램 등 5 개 대규모 데이터셋을 통해 기존 벤치마크보다 우수한 성능을 입증합니다.
이 논문은 HeyGem 과 같은 오픈소스 도구를 활용해 텍스트 기반 강의 개요를 가상 아바타가 부르는 노래로 변환함으로써 학생들의 참여도와 정보 기억력을 향상시키는 새로운 교수법을 제안하고 그 효과를 입증했습니다.
이 논문은 RF 회로의 비선형적 특성과 높은 시뮬레이션 비용을 해결하기 위해 RFIC 도메인 지식을 그래프 신경망에 접목하여, 소량 데이터로도 다양한 토폴로지의 능동 RF 회로 성능을 기존 기술 대비 9.2 배 정밀하게 예측하는 경량화된 프레임워크를 제안합니다.
이 논문은 추상적 추론이 필요한 대수적 작업에서 일반화 능력을 향상시키기 위해, 테스트 데이터 분포보다 단순한 Few-shot 예제를 선택적으로 반복적으로 구성하는 새로운 인-컨텍스트 학습 전략을 제안하고 그 유효성을 입증합니다.
이 논문은 T-A 공식으로 생성된 유한요소법 데이터를 기반으로 학습된 잔류 신경망 (FCRN) 기반 대리 모델을 개발하여 고온 초전도 자석의 전류 분포를 신속하고 정확하게 예측함으로써 대규모 자석의 지능형 설계를 가능하게 했음을 보여줍니다.
이 논문은 구면 상의 함수 적분, 특히 슬라이스된 워터스테인 거리 계산을 위해 부정적 의존성을 가진 반발적 몬테카를로 방법 (DPP, 반발 점 과정 등) 과 UnifOrtho 추정기를 제안하고 벤치마크하여, 차원에 따라 무작위 준몬테카를로 또는 UnifOrtho 를 사용하는 것이 최적임을 규명합니다.
이 논문은 대규모 일반화 정책 기반의 로봇 학습 연구를 지원하기 위해 시뮬레이션과 실제 환경 간 전환을 원활하게 하는 경량화되고 모듈화된 로봇 제어 스택 (RCS) 을 제안하고, 그 아키텍처 설계 원리와 VLA 및 RL 정책 개발 과정에서의 유용성과 성능을 평가합니다.
이 논문은 생물학적 동기화 현상에서 영감을 받아 주기적 도메인에서 스토캐스틱 쿠라모토 동역학을 활용하여 지문 및 질감처럼 방향성이 풍부한 이미지의 생성 품질을 획기적으로 개선한 새로운 스코어 기반 생성 모델을 제안합니다.
이 논문은 테스트 시간 엔트로피 최소화 과정에서 발생할 수 있는 모델 붕괴를 방지하고 학습 신호를 정규화하기 위해 비대칭 시아미즈 아키텍처인 ZeroSiam을 제안하여, 다양한 비전 및 언어 모델에서 안정적이고 효율적인 적응을 가능하게 합니다.
이 논문은 추가적인 학습 없이 기존 확산 또는 플로우 기반 로봇 정책들의 분포 점수를 결합하여 테스트 시간에 새로운 정책을 구성하는 '일반 정책 조합 (GPC)' 방법을 제안하고, 이를 통해 개별 정책보다 우수한 성능을 달성할 수 있음을 이론적 근거와 실험을 통해 입증합니다.