A Diffusion Analysis of Policy Gradient for Stochastic Bandits
이 논문은 확률적 밴딧 문제에 대한 정책 경사법의 연속 시간 확산 근사를 분석하여 학습률 조건에 따른 후회 (regret) 의 상한과 하한을 증명합니다.
330 편의 논문
이 논문은 확률적 밴딧 문제에 대한 정책 경사법의 연속 시간 확산 근사를 분석하여 학습률 조건에 따른 후회 (regret) 의 상한과 하한을 증명합니다.
이 논문은 확률적 목적 함수와 결정론적 비선형 제약 조건을 가진 최적화 문제를 해결하기 위해, 적응적 정확도 조건을 만족하는 확률적 오라클과 내점법을 결합한 새로운 '신뢰영역 내점법 확률적 순차 2 차 프로그래밍(TR-IP-SSQP)' 알고리즘을 제안하고 그 수렴성과 실용성을 입증합니다.
이 논문은 하이퍼파라미터를 통해 정의된 계층적 베이지안 모델에서 조건부 사전분포가 최대 엔트로피 분포일 때, 하이퍼파라미터를 적분하여 얻은 종속적인 주변 사전분포 역시 다른 제약 조건 하에서 최대 엔트로피 성질을 가진다는 것을 증명함으로써 계층적 모델 할당이 실제로 어떤 정보를 가정하는지에 대한 통찰을 제공합니다.
이 논문은 LLM-as-a-Judge 평가에서 발생하는 계산 비용과 편향을 해결하고 점수 구조를 분석하기 위해 질문, 답변자, 평가자의 조합으로 구성된 점수 텐서에 대해 군집 멤버십과 대표 객체 (medoids) 를 동시에 추정하는 새로운 텐서 군집화 방법인 MultiwayPAM 을 제안합니다.
이 논문은 비정상적 선형 밴드트 환경에서 고정 예산 하의 최적 암 식별 (BAI) 문제를 연구하여, 기존 G-최적 설계의 과도하게 보수적인 복잡도 한계를 극복하는 암 집합 의존적 하한을 수립하고, 이를 기반으로 한 'Adjacent-BAI' 알고리즘이 이 하한과 일치하는 최적의 성능을 보임을 증명합니다.
이 논문은 편향된 LLM 점수와 비용이 큰 인간 검증을 결합하여 서비스 시스템의 최적 구성을 효율적으로 식별하는 PP-LUCB 알고리즘을 제안하고, 이를 통해 검증 비용을 90% 절감하면서도 높은 정확도를 달성함을 보여줍니다.
이 논문은 강화 학습을 활용하여 탐색과 추론의 균형을 동적으로 조절하는 '가중치 개선 그리드 샘플링 (WiGS)'을 제안함으로써, 기존 개선 그리드 샘플링 (iGS) 보다 불규칙한 데이터 밀도 환경에서 더 높은 정확도와 레이블링 효율성을 달성하는 적응형 회귀 학습 방법을 제시합니다.
이 논문은 다중 모드, 이분산성 및 강한 비가우시안성을 가진 조건부 밀도 추정을 위해 국소 가우시안 혼합 피팅과 교차 입력 성분 정렬을 결합하여 폐쇄형 가우시안 혼합 예측 밀도를 생성하는 새로운 방법인 일반화된 가우시안 혼합 프로세스 (GGMP) 를 제안합니다.
이 논문은 다중 출력 회귀 문제에서 단조성을 유지하기 위해 최적 수송 이론의 브레니어 포텐셜을 활용하여 '브레니어 등적 회귀'라는 새로운 방법을 제안하고, 확률 보정 및 일반화 선형 모델 실험을 통해 기존 기법보다 우수한 성능을 입증합니다.
이 논문은 오버파라미터화된 선형 모델에서 듀얼 스페이스 프리컨디셔닝 경사 하강법 (정규화 경사 하강법, 그래디언트 클리핑, Adam 등 포함) 의 수렴성을 새로운 Bregman 발산 기법을 통해 증명하고, 등방성 프리컨디셔너의 경우 초기화에서 최소 거리의 해로 수렴하여 표준 경사 하강법과 동일한 암시적 편향을 가짐을 보여줍니다.
이 논문은 딥러닝 모델의 정확도뿐만 아니라 신뢰성과 불확실성 추정 능력을 평가하기 위해 몬테카를로 드롭아웃과 컨포멀 예측 기법을 비교 분석하여, GoogLeNet 이 더 잘 보정된 불확실성을 제공하고 컨포멀 예측이 통계적으로 보장된 예측 집합을 통해 고위험 의사결정 맥락에서 실용적 가치가 있음을 밝혔습니다.
이 논문은 데이터 부족과 불균형이 있는 표본 데이터 환경에서 예측 성능을 극대화하기 위해 강화 학습을 활용하여 특징 간 상관관계를 보존하는 조건부 분포 학습에 중점을 둔 새로운 합성 데이터 생성 프레임워크 'ReTabSyn'을 제안합니다.
이 논문은 기존 동등성 검정의 한계를 극복하고 분포 전체의 차이를 평가하기 위해 커널 스타인 불일치와 최대 평균 불일치를 활용한 새로운 커널 기반 동등성 검정 방법을 제안합니다.
이 논문은 질량 스펙트럼으로부터 분자 구조를 식별하는 기계학습 모델의 신뢰성을 높이기 위해, 불확실성이 높은 경우 예측을 보류하는 선택적 예측 프레임워크를 제안하고, 특히 검색 수준에서의 알레토릭 불확실성 측정이 위험 - 커버리지 트레이드오프를 효과적으로 개선하여 사용자가 허용 가능한 오차율을 설정하고 이를 만족하는 주석의 하위 집합을 보장할 수 있음을 보여줍니다.
이 논문은 가우시안 과정 회귀와 베이지안 최적화를 통합된 6 단계 서브로프 프레임워크로 결합하여, 미분 정보와 적응형 기법을 활용함으로써 포텐셜 에너지 표면상의 정류점 탐색 (최소점, 단일 및 양끝점 안장점) 의 효율성과 정확도를 획기적으로 향상시키는 방법을 제시합니다.
이 논문은 잠재 교란 변수가 있는 인과 시스템을 표현하는 조상 그래프 (Ancestral Graphs) 에 대한 분포 추론과 사전·사후 전문가 지식을 통합하여, 불확실한 피드백을 기반으로 최적의 인과 구조를 학습하는 강화 학습 기반 알고리즘 'Ancestral GFlowNet (AGFN)'을 제안하고 그 유효성을 입증합니다.
이 논문은 신경과학에서 영감을 받은 예측 부호화 네트워크 (PCN) 와 추론 학습 (IL) 에 대한 포괄적인 검토와 형식적 규정을 제공하며, 기존 역전파 방식의 한계를 넘어 생물학적 타당성과 효율성을 갖춘 차세대 머신러닝 프레임워크로서의 가능성을 제시합니다.
이 책은 기계 학습 워크플로우에 통합되어 데이터 생성 분포에 대한 가정 없이 유한 표본 보장을 제공하는 컨포멀 예측 및 관련 추론 기법의 이론적 기반, 증명 전략, 그리고 핵심 결과들을 체계적으로 정리하고 교육적으로 제시합니다.
이 논문은 커널 함수 없이 비선형 결정 경계를 모델링하는 커널 프리 2 차 표면 SVM(QSVM) 의 과적합 및 해석 어려움 문제를 해결하기 위해 정규화를 도입한 희소 QSVM 을 제안하고, 이를 효율적으로 풀기 위한 수렴성이 보장된 페널티 분해 알고리즘을 개발하여 다양한 벤치마크 및 신용 평가 데이터셋에서 우수한 성능을 입증했습니다.
이 논문은 무제한 영역의 선형 시스템 해법을 위해 Polyak 스텝사이즈 변형을 도입하여 엔트로피 미러 디센트의 수렴성을 증명하고, -노름 암시적 편향을 강화하며 지수 연산 없이 수렴이 보장되는 대안적 방법을 제안합니다.