A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.
2786 편의 논문
이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.
이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.
이 논문은 기존 아바타 시스템의 한계를 극복하고, 가우시안 도메인 적응 (GDA) 기술을 통해 사용자의 셀카를 기반으로 신원 정보를 유지하면서 2 차 스타일을 적용하는 '듀얼 스타일라이제이션' 방식을 통해 모바일 기기에서 실시간으로 애니메이션이 가능한 3D 아바타를 즉시 생성하는 'Snapmoji' 시스템을 제안합니다.
이 논문은 텍스트 기반 3D 실내 장면 생성의 평가 한계를 극복하기 위해 명시적 요구사항과 암묵적 기대치를 모두 측정하는 'SceneEval' 프레임워크와 500 개 텍스트 설명으로 구성된 벤치마크 'SceneEval-500'을 제안하고, 이를 통해 기존 생성 방법들의 성능을 다각도로 평가하여 개선 방향을 제시합니다.
이 논문은 기존 모델의 임베딩과 강력하게 정렬하는 제약이 새로운 모델의 판별력을 저하시킨다는 문제를 해결하기 위해, 오래된 특징 프로토타입에 노이즈를 추가하여 정렬 제약을 완화하는 '프로토타입 교란' 기법을 제안함으로써 역호환성 학습의 성능을 향상시켰습니다.
이 논문은 비동기적인 2D 구조 정렬과 물리적 충돌이 없는 3D 확산 모델을 통합하여, 단일 이미지에서의 양손 재구성 시 발생하는 복잡한 오목과 관통 문제를 해결하고 정밀한 상호작용 복원을 가능하게 하는 새로운 접근법을 제안합니다.
이 논문은 기존 방법의 한계를 극복하고 장면 내 객체의 불완전한 스캔을 정밀하게 복원하기 위해 장면 제약 조건을 통합한 새로운 포인트 클라우드 기반 인스턴스 완성 모델과 이를 평가하기 위한 새로운 데이터셋 ScanWCF 를 제안합니다.
이 논문은 EEG 기반 감정 인식의 안정성과 정확도를 향상시키기 위해 Lipschitz 연속성 제약을 적용한 앙상블 학습 프레임워크인 LEL 을 제안하고, 여러 공개 데이터셋에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 GPS 가 제한된 도시 환경에서 모바일 플랫폼의 자원 제약을 극복하기 위해, 다중 카메라 시스템이 비유용한 특징을 제거하고 중복성을 최소화하는 O-VIB 인코더를 통해 경량화된 시각적 특징을 에지 서버로 전송하여 정밀한 로컬라이제이션을 수행하는 작업 지향적 의미 압축 프레임워크를 제안합니다.
이 논문은 방사선 노출을 줄이면서도 고품질 CBCT 영상을 재구성하기 위해 다중 뷰 2D 및 다중 스케일 3D 특징을 통합한 DiCE 네트워크와 하이브리드 뷰 샘플링 사전 학습 (HyViP) 프레임워크를 갖춘 최초의 CBCT 재구성 기반 모델인 'DeepSparse'를 제안하고, 이를 통해 기존 방법들보다 우수한 재구성 성능을 입증했습니다.
이 논문은 객체 감지부터 경로 계획까지 다양한 자율 주행 작업을 지원하며 단일 차량과 다중 차량 협력 주행 연구를 위한 포괄적인 벤치마크인 MCAD 를 소개하고, 네트워크 대역폭 요구사항을 고려한 새로운 다단계 융합 방식을 제안하여 협력 자율 주행 시스템 개발을 촉진합니다.
이 논문은 키포인트 기반의 자산 및 시연 합성 기법과 KG-DAgger 알고리즘을 활용하여 의류의 변형성 문제를 해결하고, 시뮬레이션에서 학습된 폐루프 정책이 실제 환경에서 75% 의 높은 성공률을 달성하도록 한 FoldNet 프레임워크를 제안합니다.
이 논문은 2D 포즈 이미지의 한계를 극복하고 3D 모션 시퀀스를 직접 토큰화하여 4D 모션 토큰을 생성하는 '4DMoT'와 이를 활용한 'MV-DiT'를 제안함으로써, 다양한 캐릭터와 비인간 객체에 대해 뛰어난 제로샷 일반화 성능을 보이는 새로운 캐릭터 애니메이션 프레임워크인 MTVCraft 를 소개합니다.
이 논문은 다중 코일 및 다중 모달리티 MRI 의 가속화를 위해 수렴성이 보장된 최적화 알고리즘을 구조화된 신경망으로 풀고 메타러닝을 통합하여, 과도한 언더샘플링 및 도메인 변화 하에서도 기존 방법보다 우수한 성능을 보이는 통일된 딥러닝 프레임워크를 제안합니다.
이 논문은 애플 비전 프로를 활용해 829 시간 분량의 3D 손 관절 추적 데이터와 다양한 일상 조작 행위를 포함하는 대규모 데이터셋 'EgoDex'를 구축하고, 이를 통해 모방 학습 정책의 성능을 평가하는 새로운 벤치마크를 제시합니다.
이 논문은 대규모 인터넷 데이터로 학습된 비디오 확산 모델을 상호작용 가능한 세계 모델로 전환하기 위해 인과적 구조 재설계와 행동 유도 메커니즘을 도입한 'Vid2World'를 제안하며, 로봇 조작 및 3D 게임 등 다양한 환경에서 확장 가능하고 효과적인 해결책을 제시합니다.
이 논문은 물리 법칙을 엄격하게 준수하는 경계 적분 방정식 솔버와 사전 학습된 3D 생성 모델을 결합하여, 전기 임피던스 단층촬영 (EIT) 의 3D 인터페이스 재구성 문제를 기존 방법론보다 높은 기하학적 정밀도와 데이터 효율성으로 해결하는 새로운 '솔버-인-더-루프' 프레임워크를 제안합니다.
이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.
이 논문은 밀집된 작물 이미지에서 수동 주석을 최소화하면서도 형태와 질감에 초점을 맞춘 GLMask 를 도입하여 인스턴스 분할 성능을 획기적으로 향상시키는 반-자기지도 학습 접근법을 제안합니다.
이 논문은 GAN 의 모드 붕괴 문제를 해결하고 구조적 다양성을 강화하기 위해 분산 패널티를 도입한 변형된 피라미드 pix2pix 모델을 개발하여, 비용 효율적이고 확장 가능한 HER2 양성 유방암 진단을 위해 H&E 염색 이미지를 고품질 IHC 이미지로 변환하는 새로운 딥러닝 프레임워크를 제시합니다.