Post-Training with Policy Gradients: Optimality and the Base Model Barrier
이 논문은 정책 경사 (PG) 기반 후학습이 베이스 모델의 지원 (support) 내에서는 최적의 효율성을 보이지만, 이를 벗어날 때는 차원의 저주에 직면한다는 한계를 규명하고, 이를 극복하기 위해 토큰 수준의 가능도 분위수 (LQ) 에 의존하는 과정 보상 모델을 제안합니다.
8659 편의 논문
이 논문은 정책 경사 (PG) 기반 후학습이 베이스 모델의 지원 (support) 내에서는 최적의 효율성을 보이지만, 이를 벗어날 때는 차원의 저주에 직면한다는 한계를 규명하고, 이를 극복하기 위해 토큰 수준의 가능도 분위수 (LQ) 에 의존하는 과정 보상 모델을 제안합니다.
이 논문은 수학적으로 검증 가능한 보상을 활용한 강화학습 기법인 Chart-RL 을 제안하여, 기존 지도학습보다 다양한 차트 이해 벤치마크에서 우수한 성능과 일반화 능력을 입증했습니다.
이 논문은 사족 보행의 한계 주기 및 포인카레 반환 맵 구조에 기반한 원리 분석을 통해, 시뮬레이션 없이 오프라인으로 단 몇 초의 시연 데이터만으로도 견고한 보행 정책을 학습할 수 있는 새로운 모방 학습 방법을 제안하고 하드웨어 실험을 통해 그 유효성을 입증합니다.
이 논문은 센서 고장으로 인한 데이터 중독 문제를 해결하기 위해 SISA 아키텍처를 기반으로 한 머신 언러닝 프레임워크를 제안하여, 변압기 권선 간 단락 고장 국소화 시 전체 모델 재학습 없이 손상된 데이터 조각만 재학습함으로써 재학습 시간을 획기적으로 단축하면서도 재학습과 동등한 진단 정확도를 달성함을 보여줍니다.
이 논문은 지속성 호몰로지를 활용한 위상 인식 강화학습 프레임워크를 제안하여 극한 기상 및 사이버 공격 상황에서의 전력 배전망 재구성 및 부하 차단 최적화를 통해 에너지 공급량 증대와 전압 위반 감소를 달성하고 회복탄력성을 강화함을 보여줍니다.
이 논문은 조건부 생성 모델링에서 이상치에 민감한 기존 조건부 최적 수송 (COT) 의 한계를 해결하기 위해 조건부 마진을 엄격히 유지하면서 조건부 분포 매칭 제약을 완화하는 '조건부 불균형 최적 수송 (CUOT)' 프레임워크와 이를 기반으로 한 이상치 강건한 생성 모델 (CUOTM) 을 제안합니다.
이 논문은 일반합 게임 환경에서 근사 나시 균형을 계산하기 위해 플레이어 독립적인 잠재 함수를 학습하여 협력적 게임의 균형을 원본 게임의 균형으로 근사시키는 새로운 MARL 파이프라인인 NePPO(Near-Potential Policy Optimization) 를 제안하고, 이를 통해 기존 기법들보다 우수한 성능을 입증합니다.
이 논문은 역확산 샘플링을 선형 가용 마르코프 의사결정 과정 (LS-MDP) 의 상태 기반 확률적 제어 문제로 재해석하는 'DiffCon' 프레임워크를 제안하여, f-발산 정규화를 통한 강화학습 미세조정과 프리트레인된 백본을 고정하는 경량 사이드 네트워크 파라미터화를 통해 생성 품질과 효율성을 동시에 향상시킵니다.
이 논문은 평균 치료 효과 (ATE) 가 0 인 상태에서도 최적화 과정에서 숨겨진 인과적 편향이 발생할 수 있음을 '인과적 가림' 문제로 규명하고, 이를 탐지하기 어렵기 때문에 공정성 규제를 개별 결정이 아닌 모델 수준에서 수행해야 함을 주장합니다.
이 논문은 저자원 오디오 분류를 위해 멀티모달 대규모 언어 모델을 활용하여 인간 의존도를 줄이고 속도를 높인 해석 가능한 오디오 속성을 적응적으로 발견하는 방법을 제안하며, 기존 인간 중심 방식보다 효율적이고 정확한 분류 성능을 입증합니다.
이 논문은 매칭 플랫폼에서 참여자 만족도를 극대화하기 위해 제안된 '결합 할당 밴딧 (CAB)' 문제를 정의하고, 이를 해결하기 위한 상한 신뢰구간 (UCB) 및 톰슨 샘플링 (TS) 알고리즘을 개발하여 이론적 성능을 증명하고 실험을 통해 검증했습니다.
이 논문은 자동화된 평가 모델을 활용한 약한 지도 학습 기반의 'Self-MOA' 프레임워크를 제안하여, 소규모 언어 모델을 인간 감독 데이터에 의존하지 않고도 안전성과 유용성을 동시에 최적화할 수 있음을 입증했습니다.
이 논문은 무작위 대조 시험의 치료 효과를 시간적 맥락에 따라 외삽하는 'TEA-Time' 프레임워크를 제안하며, 시간적 효과의 분리 가정을 기반으로 TATE 를 식별하고 이중 강건 추정기를 개발하여 Upworthy 연구 아카이브 데이터를 통해 편향과 분산 간의 트레이드오프를 실증합니다.
이 논문은 복잡한 특징 공학과 그래프 기반 아키텍처에 의존하지 않고, 4 가지 핵심 상태와 변형된 트랜스포머를 활용한 경량화 DRL 프레임워크인 'ReSched'를 제안하여 유연 작업장 스케줄링 문제 (FJSP) 에서 기존 최첨단 방법보다 우수한 성능과 일반화 능력을 입증했습니다.
이 논문은 클라이언트의 컴퓨팅 자원 차이를 고려하여 강력한 클라이언트는 경량화된 DP 페더러티드 파인튜닝을, 약한 클라이언트는 경량 DP 투표 메커니즘을 통해 참여하게 함으로써, 사생활 보호와 통신 효율성을 유지하면서 다양한 하위 작업에 재사용 가능한 고품질 합성 텍스트 데이터를 생성하는 적응형 페더러티드 텍스트 생성 프레임워크를 제안합니다.
이 논문은 로봇 간 통신을 위해 자연스러움 대신 왜곡에 강한 인코딩을 학습하도록 최적화된 경량 엔드투엔드 신경망 시스템 'Artoo'를 제안하여, 잡음 환경에서도 높은 인식 정확도와 낮은 계산 비용을 달성함을 보여줍니다.
이 논문은 Deep SVDD 의 한계를 극복하고 학습 안정성과 해석 가능성을 동시에 확보하기 위해 소량의 레이블된 이상치와 최대 마진 목표를 활용한 '해석 가능한 최대 마진 심층 이상 탐지 (IMD-AD)'를 제안하고, 다양한 벤치마크에서 우수한 성능과 진단 기능을 입증합니다.
이 논문은 고엔트로피 상태의 교사 모델 예측 시 역 KL 발산을 보완하기 위해 순 KL 발산을 결합한 '엔트로피 인식 온-정책 증류 (Entropy-Aware On-Policy Distillation)'를 제안하여, 생성 다양성을 유지하면서 수학 추론 성능을 크게 향상시켰음을 보여줍니다.
VLN-Cache 는 기존 토큰 캐싱 방식이 가정한 정적 환경과 달리 시점 이동 및 작업 단계에 따른 의미 변화로 인한 실패를 해결하기 위해, 시계열 정렬 매핑과 작업 관련성 필터링을 도입하여 VLN 모델의 추론 속도를 1.52 배까지 향상시키면서도 항해 성공률을 유지하는 프레임워크를 제안합니다.
이 논문은 재구성을 사용하지 않는 세계 모델의 성능 한계를 극복하기 위해 연속적이고 결정적인 표현을 기반으로 한 JEPA 스타일의 예측기를 도입하여, 크래fter 환경에서 Dreamer 와 동등한 성능을 달성하는 'Dreamer-CDP'를 제안합니다.