ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance
이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.
2781 편의 논문
이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.
이 논문은 연속적인 특징에 의존하는 기존 딥러닝의 한계를 극복하고, 시각적 원리를 기반으로 이미지를 재구성하여 고수준 구조적 설명을 학습하는 신경기호 시스템을 제안하며, 조직학적 이미지 이상 진단에서 기존 딥러닝보다 높은 분류 정확도와 투명성을 입증했습니다.
이 논문은 각 샘플의 생성 난이도에 따라 고정된 확산 궤적이 아닌 입력 적응형 생성 역학을 도입하여, 생성 품질을 유지하면서 평균 샘플링 단계를 줄일 수 있음을 증명합니다.
이 논문은 NASA 의 Landsat 및 Sentinel-2 데이터를 기반으로 학습된 Prithvi-EO-2.0 이 이전 모델과 다른 기존 지리공간 기초 모델들보다 다양한 원격 탐사 작업에서 뛰어난 성능을 보이며, 재난 대응 및 토지 피복 매핑 등 다양한 분야에 적용 가능한 오픈소스 지리공간 기초 모델임을 제시합니다.
이 논문은 이미지 인코더와 LLM 을 공동으로 최적화하여 불필요한 시각 토큰을 줄이고 폐기된 정보를 재활용하는 새로운 토큰 병합 전략인 iLLaVA 를 제안함으로써, 기존 방법론의 한계를 극복하고 처리량과 효율성을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 다양한 멀티모달 작업에 적용 가능한 참조 없는 포괄적 평가 지표인 HarmonicEval 과 이를 검증하기 위한 18,000 개의 인간 평가 데이터로 구성된 MMHE 벤치마크를 제안하여, 기존 지표보다 인간 판단과의 상관관계가 높고 세부 기준별 점수를 제공하는 것을 입증합니다.
이 논문은 기하학적 지도와 대비 손실, 그리고 계층적 문맥 인식 모듈을 통해 3D 객체 표면에 언어 정보를 정밀하게 정렬함으로써 기존 방법보다 우수한 2D/3D 분할, 제거 및 편집 성능을 달성하는 'LangSurf'를 제안합니다.
이 논문은 사전 학습된 비전 - 언어 모델 (VLM) 을 활용하여 시각적 술어 (predicates) 를 추출하고 최적화 기반 학습을 통해 추상적 심볼릭 세계 모델을 구축함으로써, 제한된 짧은 시퀀스 데모만으로도 다양한 물체, 배경, 그리고 훈련 시 보지 못한 긴 시간 범위의 새로운 목표에 대해 제로샷 일반화가 가능한 로봇 의사결정 시스템을 제안합니다.
이 논문은 잠재 공간 클러스터링을 기반으로 결정 경계 근처의 핵심 데이터 샘플을 선별하거나 생성하여, 반지도 적대적 학습 (SSAT) 의 데이터 요구량과 계산 비용을 획기적으로 줄이면서도 강력한 적대적 견고성을 유지하는 효율적인 방법을 제안합니다.
이 논문은 베이지안 규칙에 기반하여 무조건부 사전 훈련된 확산 모델과 가우시안 사전 분포를 활용한 MAP 기반 유도 항 추정 기법을 제안함으로써, 초해상도 및 이미지 복원 등 다양한 역문제에서 기존 최첨단 방법보다 더 우수한 구조 보존과 일관성을 달성하는 문제-무관형 확산 모델을 개발했습니다.
이 논문은 전문가 시연과 무작위 탐색을 기반으로 한 예측 세계 모델을 활용하여 생성형 확산 정책을 온라인으로 계획 및 최적화하는 '생성형 예측 제어 (GPC)' 프레임워크를 제안하며, 다양한 로봇 조작 작업에서 시뮬레이션과 실제 환경 모두에서 기존 행동 모방 (Behavior Cloning) 보다 뛰어난 성능을 입증합니다.
이 논문은 복잡한 추상적 지시에 따른 대규모 미지 환경 내비게이션의 한계를 극복하기 위해 신경망 추론과 심볼릭 가이드를 결합한 신경-심볼릭 접근법 VL-Nav 을 제안하며, 실내·실외 및 실제 3D 환경에서 높은 성공률로 검증된 바 있습니다.
이 논문은 저해상도 이미지 쌍을 활용한 자기지도 학습과 잠재 확산 기반의 구조적 표현 프롬프트 생성, 그리고 구조적 어텐션 모듈을 결합하여 상세한 구조 정보를 보존하면서 단일 이미지 노이즈 제거 성능을 극대화하는 'Prompt-SID' 프레임워크를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 뇌의 시각 피질 뉴런이 특정 이미지에 반응하는 이유를 자연어 캡션으로 생성하고 해석하는 'LaVCa'라는 새로운 접근법을 제안하며, 기존 방법보다 더 정교하고 상세한 뇌 표현의 특성을 규명했다고 요약할 수 있습니다.
이 논문은 BraTS 데이터셋의 다중 MRI 시퀀스를 기반으로 UNet 을 활용한 2D 및 3D 분할 결과를 가중 평균으로 융합하고 사전 학습된 ResNet50 모델에 입력하여 뇌종양 아형 분류 정확도를 99.25% 로 극대화하는 새로운 기법을 제안합니다.
이 논문은 텍스트-이미지 확산 모델의 미세 조정을 위해 REINFORCE 의 분산 감소 기법과 PPO 의 견고함을 결합하여 샘플 효율성과 최종 성능 간의 균형을 개선한 새로운 강화 학습 방법인 'LOOP(Leave-One-Out PPO)'를 제안합니다.
이 논문은 사전 학습된 가우시안 프로세스 모델로 생성된 해부학적 랜드마크를 통합한 새로운 토큰화 방식과 트랜스포머 기반의 기하학적 딥러닝 모델을 제안하여, 고비용 침습적 PET 스캔 없이도 알츠하이머병 진단 및 중위험군의 뇌 아밀로이드 양성 예측 정확도를 향상시켰습니다.
이 논문은 기존 아바타 시스템의 한계를 극복하고, 가우시안 도메인 적응 (GDA) 기술을 통해 사용자의 셀카를 기반으로 신원 정보를 유지하면서 2 차 스타일을 적용하는 '듀얼 스타일라이제이션' 방식을 통해 모바일 기기에서 실시간으로 애니메이션이 가능한 3D 아바타를 즉시 생성하는 'Snapmoji' 시스템을 제안합니다.
이 논문은 텍스트 기반 3D 실내 장면 생성의 평가 한계를 극복하기 위해 명시적 요구사항과 암묵적 기대치를 모두 측정하는 'SceneEval' 프레임워크와 500 개 텍스트 설명으로 구성된 벤치마크 'SceneEval-500'을 제안하고, 이를 통해 기존 생성 방법들의 성능을 다각도로 평가하여 개선 방향을 제시합니다.
이 논문은 기존 모델의 임베딩과 강력하게 정렬하는 제약이 새로운 모델의 판별력을 저하시킨다는 문제를 해결하기 위해, 오래된 특징 프로토타입에 노이즈를 추가하여 정렬 제약을 완화하는 '프로토타입 교란' 기법을 제안함으로써 역호환성 학습의 성능을 향상시켰습니다.