Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
이 논문은 그래프 흐름 모델 (GFM) 의 전이 확률에 대한 분석적 표현을 도출하고 그래프의 국소적 탐색을 가능하게 하는 정제 전략을 통해 검증 가능한 보상에 기반한 온라인 강화학습 프레임워크인 Graph-GRPO 를 제안하며, 이를 통해 분자 최적화 등 다양한 작업에서 최첨단 성능을 달성함을 보여줍니다.
2316 편의 논문
이 논문은 그래프 흐름 모델 (GFM) 의 전이 확률에 대한 분석적 표현을 도출하고 그래프의 국소적 탐색을 가능하게 하는 정제 전략을 통해 검증 가능한 보상에 기반한 온라인 강화학습 프레임워크인 Graph-GRPO 를 제안하며, 이를 통해 분자 최적화 등 다양한 작업에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 레이블 노이즈가 포함된 SGD 를 사용하는 2 층 선형 신경망의 학습 역학을 분석하여, 노이즈가 모델이 '게으른(regime)' 상태에서 '풍부한(rich)' 상태로 전환되도록 유도하고 일반화 성능을 향상시키는 두 단계 학습 메커니즘을 규명했다고 요약할 수 있습니다.
이 논문은 편향된 LLM 점수와 비용이 큰 인간 검증을 결합하여 서비스 시스템의 최적 구성을 효율적으로 식별하는 PP-LUCB 알고리즘을 제안하고, 이를 통해 검증 비용을 90% 절감하면서도 높은 정확도를 달성함을 보여줍니다.
이 논문은 기존 방법의 한계를 극복하기 위해 시공간 데이터의 시간과 공간 차원을 모두 압축하는 'STemDist'라는 새로운 데이터 증류 기법을 제안하여, 기존 방법 대비 훈련 속도를 최대 6 배, 메모리 효율을 최대 8 배 향상시키면서 예측 오차를 최대 12% 까지 낮추는 성과를 입증했습니다.
이 논문은 다양한 작동 조건에서 발생하는 분포 불일치 문제를 해결하기 위해, 열화 단계 동기화 배치 샘플링 (DSSBS) 과 교차 도메인 정렬 융합 대형 오토인코더 (CAFLAE) 를 도입하여 건강 지표 (HI) 학습의 정확도를 기존 최첨단 방법 대비 평균 24.1% 향상시킨 도메인 적응 프레임워크를 제안합니다.
이 논문은 강화 학습을 활용하여 탐색과 추론의 균형을 동적으로 조절하는 '가중치 개선 그리드 샘플링 (WiGS)'을 제안함으로써, 기존 개선 그리드 샘플링 (iGS) 보다 불규칙한 데이터 밀도 환경에서 더 높은 정확도와 레이블링 효율성을 달성하는 적응형 회귀 학습 방법을 제시합니다.
이 논문은 다중 모드, 이분산성 및 강한 비가우시안성을 가진 조건부 밀도 추정을 위해 국소 가우시안 혼합 피팅과 교차 입력 성분 정렬을 결합하여 폐쇄형 가우시안 혼합 예측 밀도를 생성하는 새로운 방법인 일반화된 가우시안 혼합 프로세스 (GGMP) 를 제안합니다.
이 논문은 저비트 LLM 학습 시 발생하는 수치적 불안정성의 주된 원인이 랭크 1 의 평균 편향임을 규명하고, 이를 제거하는 간단한 평균 차감 기법을 통해 BF16 수준의 안정성과 성능을 FP4 양자화 환경에서도 효율적으로 회복할 수 있음을 제시합니다.
이 논문은 텍스트 프롬프트로 지정하기 어려운 특정 인스턴스 (예: 개인 얼굴) 를 선택적으로 잊게 하되 모델의 나머지 기능은 유지하기 위해 이미지 편집, 시간 단계 인식 가중치, 기울기 수술을 활용한 프롬프트 없는 확산 모델 인스턴스 언러닝 방법을 제안합니다.
이 논문은 다중 출력 회귀 문제에서 단조성을 유지하기 위해 최적 수송 이론의 브레니어 포텐셜을 활용하여 '브레니어 등적 회귀'라는 새로운 방법을 제안하고, 확률 보정 및 일반화 선형 모델 실험을 통해 기존 기법보다 우수한 성능을 입증합니다.
이 논문은 다양한 시간 해상도의 입력을 활용하여 다중 해상도 ConvLSTM 앙상블 프레임워크를 제안함으로써, 단계별 굴착 중 옹벽 변형의 장기 예측 시 오류 누적을 완화하고 예측 정확도와 안정성을 향상시켰음을 보여줍니다.
이 논문은 10~100 MeV 대역의 강전하 입자 빔에서 Vlasov-Poisson 계를 기반으로 한 유전 함수 이론과 Prometheus 라는 unsupervised 학습 모델을 결합하여, 임계 밀도 이상에서 감쇠가 없는 랭뮤어 파동 존재를 증명하고 입자 - 빔 전이가 3D 이징 보편성 부류에 속함을 규명하며 PIC 시뮬레이션을 통해 이론적 예측을 검증했습니다.
이 논문은 제한된 실험 데이터만으로도 강화학습 기반 예측 보행 시뮬레이션의 생체역학적 정확도와 일반화 능력을 향상시키기 위해 신경생리학적 구조인 근육 시너지 (muscle synergy) 를 제어 공간에 통합한 새로운 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 오버파라미터화된 선형 모델에서 듀얼 스페이스 프리컨디셔닝 경사 하강법 (정규화 경사 하강법, 그래디언트 클리핑, Adam 등 포함) 의 수렴성을 새로운 Bregman 발산 기법을 통해 증명하고, 등방성 프리컨디셔너의 경우 초기화에서 최소 거리의 해로 수렴하여 표준 경사 하강법과 동일한 암시적 편향을 가짐을 보여줍니다.
이 논문은 제한적이고 노이즈가 많은 신경 기록 데이터에서도 다양한 과제를 포괄하는 단일 통합 모델로 뇌의 역동적 메커니즘을 확장 가능하고 일반화되게 추론할 수 있는 계층적 모델 'JEDI'를 제안하고, 이를 통해 신경 역학의 공유 구조를 밝히고 실제 원숭이 운동 피질 데이터에 적용하여 운동 제어의 기작적 통찰을 도출함을 보여줍니다.
이 논문은 데이터 분포에 구애받지 않고 진정한 내재 차원에 수렴하는 보편적 특성을 가진 새로운 최근접 이웃 거리 비율 기반 추정기를 제안하고, 이를 이론적으로 증명하며 실험을 통해 검증합니다.
이 논문은 증거 기반 주장 검증을 통해 선호도를 추출하고 직접 선호도 최적화 (DPO) 를 적용하여 임상 요약의 사실성 (unsupported claim) 을 크게 줄이면서도 정보량을 유지하는 VERI-DPO 모델을 제안합니다.
이 논문은 t-곱 대수와 텐서 트레인 구조를 결합하여 저장 효율성을 높이고 이미지 및 영상 압축, 텐서 완성, 초분광 영상 등 다양한 응용 분야에서 우수한 성능을 보이는 새로운 '튜브형 텐서 트레인 (TTT)' 분해 모델을 제안합니다.
이 논문은 제한된 컴퓨팅 자원에서 그래프 어텐션 메커니즘과 GPT-4o-mini 를 결합한 경량 하이브리드 프레임워크를 제안하여, 노이즈가 있는 데이터에서도 아만존스 체스 게임에서 기존 베이스라인과 교사 모델보다 뛰어난 성능을 달성함을 입증합니다.
이 논문은 프론티어 LLM 의 지시 계층 구조 (IH) 강인성을 향상시키기 위해 고안된 강화 학습 데이터셋 'IH-Challenge'를 소개하고, 이를 통해 GPT-5-Mini 의 지시 계층 안정성을 10% 이상 개선하면서도 안전성과 유용성을 동시에 확보한 결과를 제시합니다.