RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond
이 논문은 여러 시점과 다수의 사람에 대한 전신 자세 삼각측량을 밀리초 단위로 수행하면서도 일반화 성능이 뛰어난 새로운 알고리즘 'RapidPoseTriangulation'을 제안하고 있습니다.
5275 편의 논문
이 논문은 여러 시점과 다수의 사람에 대한 전신 자세 삼각측량을 밀리초 단위로 수행하면서도 일반화 성능이 뛰어난 새로운 알고리즘 'RapidPoseTriangulation'을 제안하고 있습니다.
이 논문은 청정 참조 데이터 없이도 노이즈가 많은 acquisitions 에서 탁월한 재구성 품질을 제공하는 자기지도 학습 기반의 딥러닝 고스트 이미징 재구성 방법인 'Noise2Ghost'를 제안하며, 이를 통해 저조도 X 선 형광 이미징 등 다양한 첨단 응용 분야에서 신호 대 잡음비 문제를 해결할 수 있음을 보여줍니다.
이 논문은 과거의 전역 점유율 맵을 장기 기억 사전 지식으로 활용하여 국부 3D 점유율 예측의 정확도를 높이고, 동시에 새로운 관측 데이터로 전역 맵을 지속적으로 업데이트하는 'LMPOcc'라는 새로운 프레임워크를 제안합니다.
이 논문은 rPPG 신호의 조명 변화 및 모션 아티팩트 문제를 해결하기 위해 대규모 언어 모델 (LLM) 과 도메인 특화 rPPG 구성 요소를 시너지 있게 결합한 'PhysLLM' 프레임워크를 제안하고, 텍스트 프로토타입 안내 (TPG) 전략과 듀얼 도메인 정적 (DDS) 알고리즘을 통해 기존 방법보다 뛰어난 정확도와 강건성을 입증했습니다.
이 논문은 정교한 공간적 상호작용과 장기적인 시간적 일관성을 동시에 해결하기 위해 계층적 유한 스칼라 양자화 (HFSQ) 와 블록 단위 국소 컨텍스트 (BLC) 전략을 도입한 확산 기반 반응형 댄스 생성 프레임워크인 ReactDance 를 제안합니다.
이 논문은 카메라와 레이더 센서를 융합하여 자율주행 환경 인식을 위한 BEV 시맨틱 분할의 정확도와 견고성을 향상시키기 위해, 점진적 잔차 자기회귀 학습과 이중 경로 볼륨 인코딩을 활용한 설명 가능한 RESAR-BEV 프레임워크를 제안합니다.
이 논문은 저해상도 환경과 헤드 - 눈 상호작용 모델링의 한계를 극복하기 위해 초해상도 기술과 이중 헤드 - 눈 교차 어텐션 (DHECA) 모듈을 도입한 'DHECA-SuperGaze'를 제안하고, Gaze360 데이터셋의 오라노테이션을 수정하여 기존 최첨단 방법보다 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 외부 데이터나 모델에 의존하지 않고 객체 중심의 선호도 데이터를 자동 생성하고 주시 기반 마스크와 객체 가중치 SimPO 손실 함수를 활용하여 텍스트 - 이미지 생성의 미세한 정합성을 향상시키고 객체 환각을 줄이는 'OSPO' 프레임워크를 제안합니다.
이 논문은 텍스트 - 이미지 확산 모델의 생성된 이미지에서 원본 프롬프트를 효과적이고 해석 가능하게 역추적하는 'EDITOR'라는 새로운 기법을 제안하며, 기존 방법보다 뛰어난 이미지 유사도와 텍스트 정렬 성능을 입증하고 다양한 응용 가능성을 보여줍니다.
이 논문은 시각적 공간의 계층적 특성을 쌍곡선 공간에 효과적으로 매핑하여 퍼스펙티브와 에퀴랙탱귤러 이미지 간의 시각적 장소 인식 (P2E) 성능을 향상시키고, 검색 속도와 저장 공간 효율성을 동시에 개선한 'HypeVPR'을 제안합니다.
IGN 은 다양한 지구 관측 데이터를 활용한 대규모 다중 모달 데이터셋 'FLAIR-HUB'를 소개하여, 20cm 고해상도 주석과 6 가지 모달리티를 결합한 토지 피복 및 작물 매핑을 위한 벤치마크와 모델 성능을 평가했습니다.
본 논문은 비허미션 결정체의 에너지 스펙트럼에서 추출된 1,160 만 개의 정적 및 510 만 개의 동적 공간 다중그래프를 포함하는 대규모 벤치마크 데이터셋 HSG-12M 과 이를 자동 생성하는 오픈소스 파이프라인 Poly2Graph 를 소개하여, 물리학적 발견과 기하학적 인식을 갖춘 그래프 학습의 새로운 지평을 엽니다.
이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.
이 논문은 시각 프롬프트의 성능 한계를 극복하기 위해 손실 기반 순위 매기기를 통해 자동적으로 최적의 시각 프롬프트를 검색하는 경량 프레임워크 'AutoV'를 제안하며, 이는 다양한 LVLM 의 이미지 이해 및 생성 성능을 크게 향상시킵니다.
이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.
이 논문은 4.58M 개의 파라미터로 주요 3D 트랜스포머 대비 98% 적은 자원을 사용하면서도 BraTS 벤치마크에서 최첨단 성능을 달성하는 그래프 기반 경량 뇌종양 분할 네트워크 GMLN-BTS 를 제안합니다.
이 논문은 고정된 가우시안 노이즈의 한계를 극복하고 다양한 노이즈 패턴을 처리하여 이미지 복원 성능을 향상시키기 위해, 임의의 노이즈를 기반으로 한 확산 모델의 설계 공간을 체계적으로 규명하는 새로운 프레임워크인 EDA 를 제안합니다.
이 논문은 조직병리 이미지의 높은 세포 밀도와 이질성, 그리고 임상적 분할 의도 간의 간극을 해결하기 위해, 직접 선호도 최적화 (DPO) 를 순수 비전 기반 모델에 최초로 적용하여 다양한 프롬프트 품질에서도 임상적 의도에 부합하는 정확한 분할을 가능하게 하는 'SAMPO-Path' 프레임워크를 제안합니다.
이 논문은 사전 훈련된 모델의 파라미터 중요도를 기반으로 한 정규화 미세 조정 프레임워크를 제안하여, RGB 데이터에 대한 다중 모달리티 추적기의 성능을 기존 최첨단 기법보다 향상시킵니다.
이 논문은 시간도달 (ToA) 맵과 같은 우대 정보와 새로운 손실 함수를 활용하여 대규모 장애물 환경에서 기존 방법보다 성능이 뛰어난 강화학습 기반 4 축 헬리콥터 항법 시스템을 제안하고, 이를 시뮬레이션 및 실제 야외 환경에서 성공적으로 검증했습니다.