Automated Reinforcement Learning: An Overview
이 논문은 강화 학습의 모델링, 알고리즘 선택, 하이퍼파라미터 최적화 등 다양한 구성 요소를 자동화하는 '자동화 강화 학습 (AutoRL)'의 최신 연구 동향, 특히 대규모 언어 모델 (LLM) 기반 기법을 포함한 문헌을 종합하고 향후 연구 방향과 과제를 논의합니다.
2396 편의 논문
이 논문은 강화 학습의 모델링, 알고리즘 선택, 하이퍼파라미터 최적화 등 다양한 구성 요소를 자동화하는 '자동화 강화 학습 (AutoRL)'의 최신 연구 동향, 특히 대규모 언어 모델 (LLM) 기반 기법을 포함한 문헌을 종합하고 향후 연구 방향과 과제를 논의합니다.
이 논문은 불확실한 천문학적 시계열 데이터의 분류 성능을 유지하면서 예측의 설명 가능성을 제공하는, 불확실성을 고려한 서브시퀀스 기반의 새로운 모델을 제안합니다.
본 논문은 대규모 언어 모델 (LLM) 의 배경, 주요 발견 및 핵심 기술 (사전 학습, 적응 튜닝, 활용, 능력 평가) 을 개괄하고, 관련 자원과 향후 과제를 논의하는 포괄적인 조사를 제공합니다.
이 논문은 로봇 공학에서 의사결정 및 학습을 위한 인지 모델링의 진화와 가치 시스템의 역할을 utility theory 관점에서 종합적으로 검토하고, 향후 연구 방향과 해결해야 할 과제를 제시합니다.
이 논문은 순환 기반 그래프에서 용량과 작업 순서가 지정된 자동 유도 차량 (AGV) 을 위한 온라인 충돌 방지 스케줄링 및 라우팅을 해결하는 새로운 알고리즘을 제안하고, 이를 기존 방법론들과 비교하여 더 짧은 계산 시간 내에 동등하거나 우수한 성능을 입증했습니다.
본 논문은 온톨로지 매칭의 복잡하고 퓨샷 (few-shot) 작업에서 기존 최첨단 시스템보다 뛰어난 성능을 보이는 새로운 에이전트 기반 프레임워크인 'Agent-OM'을 제안하고 그 유효성을 입증합니다.
이 논문은 기존 심리측정학 기반의 컴퓨터 적응형 검사 (CAT) 를 머신러닝 관점에서 재조명하여 측정 모델, 문항 선정, 문항지 구성, 검사 통제 등 핵심 요소를 최적화하는 방안을 제시하고, 향후 보다 포괄적이고 학제적인 접근을 촉구하는 종합적 조사를 제공합니다.
이 논문은 기존 방법의 비효율성과 특수성 문제를 해결하기 위해 정책 경사법을 활용해 확률 분포로 표현된 어트리뷰션 기반 설명을 최적화하는 'Fast Explanation (FEX)' 프레임워크를 제안하며, 이미지 및 텍스트 분류 작업에서 추론 시간을 97% 이상 단축하고 메모리 사용량을 70% 줄이면서도 높은 설명 품질과 일반성을 유지함을 입증했습니다.
이 논문은 소수 샷 미세 조정 중 확산 모델에서 발생하는 '부패 단계'를 이론적으로 분석하고, 베이지안 신경망을 적용하여 학습 분포를 확장함으로써 이미지 충실도와 다양성을 향상시키는 방법을 제안합니다.
이 논문은 자연어 기반의 프로그래머와 검사자 에이전트, 그리고 사용자 개입 및 외부 지식 통합 메커니즘을 통해 코드 없이도 강력한 데이터 분석을 가능하게 하는 오픈소스 멀티에이전트 시스템 'LAMBDA'를 제안합니다.
이 논문은 최적 수송 이론에서 유도된 정규화와 볼록 통합 문제를 통해 국소 리프시츠 연속성을 보장하면서도 훈련 데이터를 정확하게 적합할 수 있는 새로운 2 단계 적대적 방어 모델 OTAD 를 제안하여 기존 방법들의 한계를 극복하고 다양한 데이터셋에서 우수한 성능을 입증했습니다.
이 논문은 고차원 공간이나 복잡한 데이터셋에서 기존 방법의 한계를 극복하기 위해 어닐링 중요도 샘플링 (AIS) 과 재매개변수화 기법을 결합하여 가우시안 프로세스 잠재 변수 모델 (GPLVM) 의 변분 추론 성능을 획기적으로 개선하는 새로운 알고리즘을 제안합니다.
이 논문은 오디오와 비디오 데이터를 통합하여 성대 마비 진단을 지원하기 위해 성문 검출, 음성 키워드 인식, 확산 기반 분할 정제 기술을 활용한 다중 모달 후두경 비디오 분석 시스템 (MLVAS) 을 제안하고 그 유효성을 입증합니다.
이 논문은 인공지능이 테스트 케이스 생성 및 검증을 자동화하고 적응력을 높여 소프트웨어 테스트의 효율성, 정확성 및 확장성을 혁신적으로 개선할 수 있는 잠재력과 함께 데이터 품질, 투명성, 인간 감독의 균형 등 해결해야 할 과제를 탐구합니다.
이 논문은 기존 평가의 한계를 지적하고, 데이터 이동 및 메모리 접근 오버헤드를 고려한 정밀한 에너지 모델을 통해 특정 운영 조건 (낮은 스파이크율과 적절한 시간 창) 에서만 SNN 이 QNN 보다 에너지 효율이 우수함을 입증하고, 이를 통해 스마트워치 배터리 수명을 두 배로 늘릴 수 있음을 보여줍니다.
이 논문은 물리 시스템의 수학적 구조와 안정성을 보존하고 입력-잠재 공간 매핑을 가역적으로 만드는 새로운 결합 진동자 네트워크 (CON) 모델을 제안하여, 이미지 기반의 복잡한 비선형 역학을 학습하고 잠재 공간에서 폐형 모델 기반 제어를 가능하게 함으로써 연성 로봇 제어에 탁월한 성능을 입증합니다.
이 논문은 볼츠만 분포에서 독립적이고 동일한 분포 (IID) 를 가진 샘플을 생성하기 위해 에너지 함수를 기반으로 한 확산 기반 샘플러 'Noised Energy Matching(NEM)'과 편향과 분산을 균형 있게 조절하는 부트스트래핑 기법을 도입한 'BNEM'을 제안하며, 다양한 실험을 통해 기존 방법보다 뛰어난 성능과 견고함을 입증합니다.
이 논문은 사전 훈련된 CLIP 모델을 활용하여 온라인으로 시각적 프롬프트를 자동 생성 및 정제함으로써 주변 방해 요인을 억제하고 범용 객체 추적 성능을 향상시키는 새로운 'PiVOT' 메커니즘을 제안합니다.
이 논문은 부분 관측 가능한 동적 시스템에서 숨겨진 변수와 메모리 항 간의 이론적 연결을 제공하는 모리 - 츠반지 (Mori-Zwanzig) 형식주의에 영감을 받아, 데이터로부터 비마코프 역학을 직접 학습하기 위한 상수 지연 신경 지연 미분 방정식 (NDDEs) 프레임워크를 제안하고 다양한 시뮬레이션 및 실험 데이터를 통해 기존 방법들보다 우수한 성능을 입증합니다.
이 논문은 신경 ODE 를 기반으로 가중치가 연속적인 동역학 시스템으로 진화하고 입력 복잡도에 따라 계산 깊이가 적응적으로 조절되는 새로운 CNN 프레임워크인 Puppet-CNN 을 제안하여, 저장된 학습 가능한 파라미터를 대폭 줄이면서도 경쟁력 있는 예측 성능을 달성함을 보여줍니다.