ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation
이 논문은 정교한 공간적 상호작용과 장기적인 시간적 일관성을 동시에 해결하기 위해 계층적 유한 스칼라 양자화 (HFSQ) 와 블록 단위 국소 컨텍스트 (BLC) 전략을 도입한 확산 기반 반응형 댄스 생성 프레임워크인 ReactDance 를 제안합니다.
4146 편의 논문
이 논문은 정교한 공간적 상호작용과 장기적인 시간적 일관성을 동시에 해결하기 위해 계층적 유한 스칼라 양자화 (HFSQ) 와 블록 단위 국소 컨텍스트 (BLC) 전략을 도입한 확산 기반 반응형 댄스 생성 프레임워크인 ReactDance 를 제안합니다.
이 논문은 카메라와 레이더 센서를 융합하여 자율주행 환경 인식을 위한 BEV 시맨틱 분할의 정확도와 견고성을 향상시키기 위해, 점진적 잔차 자기회귀 학습과 이중 경로 볼륨 인코딩을 활용한 설명 가능한 RESAR-BEV 프레임워크를 제안합니다.
이 논문은 저해상도 환경과 헤드 - 눈 상호작용 모델링의 한계를 극복하기 위해 초해상도 기술과 이중 헤드 - 눈 교차 어텐션 (DHECA) 모듈을 도입한 'DHECA-SuperGaze'를 제안하고, Gaze360 데이터셋의 오라노테이션을 수정하여 기존 최첨단 방법보다 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 외부 데이터나 모델에 의존하지 않고 객체 중심의 선호도 데이터를 자동 생성하고 주시 기반 마스크와 객체 가중치 SimPO 손실 함수를 활용하여 텍스트 - 이미지 생성의 미세한 정합성을 향상시키고 객체 환각을 줄이는 'OSPO' 프레임워크를 제안합니다.
이 논문은 텍스트 - 이미지 확산 모델의 생성된 이미지에서 원본 프롬프트를 효과적이고 해석 가능하게 역추적하는 'EDITOR'라는 새로운 기법을 제안하며, 기존 방법보다 뛰어난 이미지 유사도와 텍스트 정렬 성능을 입증하고 다양한 응용 가능성을 보여줍니다.
이 논문은 시각적 공간의 계층적 특성을 쌍곡선 공간에 효과적으로 매핑하여 퍼스펙티브와 에퀴랙탱귤러 이미지 간의 시각적 장소 인식 (P2E) 성능을 향상시키고, 검색 속도와 저장 공간 효율성을 동시에 개선한 'HypeVPR'을 제안합니다.
IGN 은 다양한 지구 관측 데이터를 활용한 대규모 다중 모달 데이터셋 'FLAIR-HUB'를 소개하여, 20cm 고해상도 주석과 6 가지 모달리티를 결합한 토지 피복 및 작물 매핑을 위한 벤치마크와 모델 성능을 평가했습니다.
본 논문은 비허미션 결정체의 에너지 스펙트럼에서 추출된 1,160 만 개의 정적 및 510 만 개의 동적 공간 다중그래프를 포함하는 대규모 벤치마크 데이터셋 HSG-12M 과 이를 자동 생성하는 오픈소스 파이프라인 Poly2Graph 를 소개하여, 물리학적 발견과 기하학적 인식을 갖춘 그래프 학습의 새로운 지평을 엽니다.
이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.
이 논문은 시각 프롬프트의 성능 한계를 극복하기 위해 손실 기반 순위 매기기를 통해 자동적으로 최적의 시각 프롬프트를 검색하는 경량 프레임워크 'AutoV'를 제안하며, 이는 다양한 LVLM 의 이미지 이해 및 생성 성능을 크게 향상시킵니다.
이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.
이 논문은 4.58M 개의 파라미터로 주요 3D 트랜스포머 대비 98% 적은 자원을 사용하면서도 BraTS 벤치마크에서 최첨단 성능을 달성하는 그래프 기반 경량 뇌종양 분할 네트워크 GMLN-BTS 를 제안합니다.
이 논문은 고정된 가우시안 노이즈의 한계를 극복하고 다양한 노이즈 패턴을 처리하여 이미지 복원 성능을 향상시키기 위해, 임의의 노이즈를 기반으로 한 확산 모델의 설계 공간을 체계적으로 규명하는 새로운 프레임워크인 EDA 를 제안합니다.
이 논문은 조직병리 이미지의 높은 세포 밀도와 이질성, 그리고 임상적 분할 의도 간의 간극을 해결하기 위해, 직접 선호도 최적화 (DPO) 를 순수 비전 기반 모델에 최초로 적용하여 다양한 프롬프트 품질에서도 임상적 의도에 부합하는 정확한 분할을 가능하게 하는 'SAMPO-Path' 프레임워크를 제안합니다.
이 논문은 사전 훈련된 모델의 파라미터 중요도를 기반으로 한 정규화 미세 조정 프레임워크를 제안하여, RGB 데이터에 대한 다중 모달리티 추적기의 성능을 기존 최첨단 기법보다 향상시킵니다.
이 논문은 시간도달 (ToA) 맵과 같은 우대 정보와 새로운 손실 함수를 활용하여 대규모 장애물 환경에서 기존 방법보다 성능이 뛰어난 강화학습 기반 4 축 헬리콥터 항법 시스템을 제안하고, 이를 시뮬레이션 및 실제 야외 환경에서 성공적으로 검증했습니다.
이 논문은 제한된 계산 자원과 원거리 물체라는 제약 조건 하에서도 드론 기반 산불 감시와 같은 안전 필수 감시 작업을 위해 노이즈가 포함된 이미지 분할 시퀀스를 활용한 다중 뷰 삼각측량 및 파티클 필터 기반의 3D 물체 국소화 방법의 유효성을 입증합니다.
이 논문은 폐루프 자율주행 환경에서 안전하고 반응적인 궤적 계획을 위해 전진 및 역과정의 이론적 일관성을 보장하는 '브릿지드라이브 (BridgeDrive)'라는 새로운 앵커 기반 확산 브리지 정책을 제안하고, Bench2Drive 벤치마크에서 기존 최첨단 방법론보다 성공률을 크게 향상시킨 결과를 제시합니다.
이 논문은 VAE 잠재 공간의 이질적인 분산을 해결하기 위해 초구면 제약 (hyperspherical constraint) 을 도입한 'SphereAR'를 제안하여, 기존 확산 모델이나 마스킹 생성 모델을 능가하는 이미지 생성 성능을 달성한 연속 토큰 자기회귀 (AR) 모델의 새로운 표준을 제시합니다.
이 논문은 저해상도 비디오를 3D 푸리에 필드로 연속적으로 표현하여 공간적 세부 사항과 시간적 일관성을 동시에 향상시키고, 기존 방법보다 효율적으로 고품질 비디오 초해상도를 달성하는 새로운 접근법을 제안합니다.