Partial Policy Gradients for RL in LLMs
이 논문은 미래 보상의 부분 집합을 최적화하여 더 정확한 기울기 추정을 가능하게 하는 '부분 정책 경사 (Partial Policy Gradients)' 방법을 제안하고, 이를 다양한 대화 정렬 문제에서 다양한 정책 클래스 (전체 계획, 탐욕적, K-스텝 룩어헤드 등) 의 성능 비교를 통해 검증합니다.
9391 편의 논문
이 논문은 미래 보상의 부분 집합을 최적화하여 더 정확한 기울기 추정을 가능하게 하는 '부분 정책 경사 (Partial Policy Gradients)' 방법을 제안하고, 이를 다양한 대화 정렬 문제에서 다양한 정책 클래스 (전체 계획, 탐욕적, K-스텝 룩어헤드 등) 의 성능 비교를 통해 검증합니다.
이 논문은 뇌과학에서 영감을 받은 확률적 잠재 변수 모델인 예측 코딩 그래프 (PCG) 가 다층 퍼셉트론을 포함하는 수학적 초집합임을 증명하여, 예측 코딩 네트워크를 현대 기계학습의 맥락에 더 강력하게 위치시키고 신경망 위상학 연구의 중요성을 재확인합니다.
이 논문은 입력 상태에 공간적 일관성을 가진 노이즈 (예: Perlin 노이즈) 를 가하는 앙상블 학습 전략을 통해 추가적인 학습 비용 없이 해상도 표면 온도 확률 예보의 보정 성능을 향상시키는 그래프 신경망 (GNN) 기반 방법을 제안하고 그 유효성을 입증합니다.
이 논문은 다양한 K 값의 벡터 검색 쿼리에 대해 높은 정확도와 성능을 유지하면서도 전처리 비용을 크게 절감하는 새로운 학습 기반 검색 방법인 OMEGA 를 제안합니다.
이 논문은 인공 알파벳의 레이블된 데이터를 기반으로 한 대비 학습으로 교사를 훈련한 후, 역사적 문자 체계에 대한 비지도 지식 증류를 적용하여 지도 학습과 비지도 발견을 연결하는 2 단계 프레임워크를 제안하여, 진화적 관계에 대한 정답이 없어도 글자 인식과 문자 군집화를 효과적으로 수행할 수 있음을 보여줍니다.
이 논문은 자기-어텐션 메커니즘 없이도 토큰이 군집화되는 심층 트랜스포머의 행동을 설명하기 위해 무작위 이차 형식 (RQF) 모델을 도입하고, 공통 잡음에 의한 동기화 현상을 분포 및 경로적 관점에서 분석합니다.
이 논문은 보행 중 발 높이 (foot clearance) 시계열 데이터에 위상 데이터 분석 (TDA) 을 적용하여 생성된 위상 기술자가 파킨슨병과 혈관성 파킨슨증의 감별 진단 정확도를 향상시킨다는 것을 입증했습니다.
이 논문은 척수 손상 환자의 건강 모니터링을 위해 웨어러블 센서 데이터를 기반으로 중앙 집중식 XGBoost 와 동등한 성능을 내면서도 구조적 이점을 유지하는 새로운 분산 머신러닝 프로토콜 FedSCS-XGB 를 제안하고 이론적 수렴성과 실증적 유효성을 입증합니다.
이 논문은 여러 작업 간 특이 공간의 방향적 일관성을 유지하기 위해 작업 벡터의 에너지 분포를 균형화하고 공유 직교 부분 공간에 정렬하는 'DC-Merge' 방법을 제안하여 모델 병합 성능을 획기적으로 개선합니다.
이 논문은 소프트맥스 기반 모델의 경사 흐름이 다양한 손실 함수에 걸쳐 저엔트로피 해를 향해 출력을 극화시키는 보편적 메커니즘을 규명함으로써, 어텐션 싱크와 같은 트랜스포머의 실증적 현상에 대한 이론적 근거를 제시합니다.
이 논문은 고차원 상관 데이터의 다중공선성 문제를 해결하기 위해 단일 모수 주성분 회귀와 정규화를 통합하여 변수 선택과 계수 추정의 안정성을 동시에 확보하는 새로운 적응형 페널티 추정 방법인 SPPCSO 를 제안하고 그 유효성을 이론적 및 실증적으로 입증합니다.
이 논문은 에이전트 행동의 정밀한 진단과 최적 정책의 기준을 제공하여 강화학습 평가를 경험적 벤치마킹에서 엄격한 과학적 분석으로 전환할 수 있도록 돕는 '합성 모니터링 환경 (SMEs)'이라는 무한한 연속 제어 작업 세트를 제안합니다.
이 논문은 잡음 데이터에 강인하고 기하학적 비합리성을 해결하며 일반화 능력을 보장하는 새로운 경계 비대칭 탄성 넷 손실 함수를 기반으로 한 BAEN-SVM 모델을 제안하고, 그 이론적 성질을 증명하며 비볼록 최적화 문제를 효율적으로 해결하는 알고리즘을 개발하여 실험을 통해 기존 SVM 보다 우수한 성능을 입증했습니다.
이 논문은 이산 및 연속 변수를 효율적으로 분리하고 조율하는 학습 기반 2 단계 프레임워크인 DeCoST 를 제안하여, 시간 창과 가변 수익이 포함된 오리엔티어링 문제 (OPTWVP) 의 해법 품질과 계산 효율성을 기존 최첨단 알고리즘보다 크게 향상시켰음을 보여줍니다.
이 논문은 방사선학 질문 응답에서 에이전트 기반 검색 증강 추론이 다양한 모델 간 의사결정 분산을 줄이고 합의 강도를 높여 집단적 신뢰성을 향상시킨다고 밝히며, 단순 정확도나 합의도만으로는 시스템의 신뢰성을 완전히 평가할 수 없음을 시사합니다.
이 논문은 퍼지 인지 지도 (FCM) 를 신경망으로 구현하고 랑주뱅 미분 동역학을 활용하여 과적합을 방지하며 인과 관계 패턴을 학습하고 출력 노드 값을 역해석하여 수정 기준을 도출하는 FHM 모델의 설계와 여러 데이터셋에 대한 성능 평가를 다룹니다.
이 논문은 인과적 주의 메커니즘의 정보 흐름 관점을 재해석하여, 초기 토큰의 누적 의존성을 고려한 토큰 위치 감쇠 전략과 출력 민감도 기반 메트릭을 도입한 'Stem' 모듈을 제안함으로써 긴 문맥 처리 시 계산 복잡성과 사전 채우기 지연을 줄이면서도 높은 정확도를 달성합니다.
이 논문은 PINN 의 느린 학습 속도와 기존 PIELM 의 무작위 초기화 한계를 극복하기 위해, 확률적 적응 샘플링 기법을 통해 PIELM 의 커널을 물리 현상이 집중된 영역에 자동으로 배치하여 경계층이 있는 강성 PDE 를 고정밀도로 빠르게 해결하는 GMM-PIELM 프레임워크를 제안합니다.
이 논문은 2D 투영 간의 상관관계를 고려하지 않는 기존 방법의 한계를 극복하기 위해, 서로 다른 두 평면에서 학습된 수직 스코어 기반 확산 모델을 결합하여 치과 CBCT 영상의 임플란트 아티팩트를 제거하는 3D 인페인팅 기법을 제안하고 그 유효성을 입증합니다.
이 논문은 기계 고장 진단의 정확성과 잡음 내성을 향상시키기 위해 고정된 그래프 구조에 의존하지 않고 데이터 기반의 적응형 메시지 전달을 가능하게 하는 새로운 관계 학습 프레임워크인 '극성 직접 교차 어텐션 (PolaDCA)'을 제안하고 산업 데이터셋에서 기존 방법들을 능가하는 성능을 입증합니다.