Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates
이 논문은 단일 이미지와 비디오로부터 고충실도 3D 의류 재구성을 위해 2D UV 공간에서 학습된 생성 확산 모델과 Implicit Sewing Patterns 를 결합하고, 시공간 확산 기법과 테스트 시간 가이드를 통해 일관된 동적 재구성을 가능하게 하는 통합 프레임워크를 제안합니다.
6690 편의 논문
이 논문은 단일 이미지와 비디오로부터 고충실도 3D 의류 재구성을 위해 2D UV 공간에서 학습된 생성 확산 모델과 Implicit Sewing Patterns 를 결합하고, 시공간 확산 기법과 테스트 시간 가이드를 통해 일관된 동적 재구성을 가능하게 하는 통합 프레임워크를 제안합니다.
이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.
이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.
이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.
이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.
이 논문은 대규모 사전 학습 없이도 비디오에서 생성된 텍스트 정보를 시각적 특징과 결합한 다중 모달 최적 수송 기법 (TASOT) 을 통해 수술 로봇의 비지도 시간적 분할 성능을 획기적으로 향상시키는 방법을 제안합니다.
이 논문은 단일 입력 이미지로부터 기하학적 일관성을 유지하며 신원 정보를 보존하는 360 도 회전 영상을 생성하는 비디오 확산 모델 'HumanOrbit'을 제안하고, 이를 통해 기존 방법보다 완성도와 충실도가 높은 3D 텍스처 메시를 재구성하는 파이프라인을 소개합니다.
RAViT 는 다양한 해상도의 이미지를 처리하는 다중 분기 구조와 조기 종료 메커니즘을 도입하여 비전 트랜스포머의 계산 비용을 약 70% 로 줄이면서도 기존 모델과 동등한 정확도를 달성하는 새로운 이미지 분류 프레임워크입니다.
이 논문은 고차원 이미지의 속성 매니폴드를 고려하여 픽셀의 공간적 배치와 속성 간 추상화를 일치시키는 초픽셀 계층 구조를 제안함으로써, 이미지 공간과 속성 공간 모두에서 일관된 고차원 이미지 탐색을 가능하게 합니다.
이 논문은 DINOv2 와 같은 사전 학습된 비전 인코더의 모달리티 간 정렬 부족 문제를 해결하기 위해, 다양한 모달리티 간의 정렬과 교사 모델 증류를 결합한 '잡식성 비전 인코더 (Omnivorous Vision Encoder)'를 제안하여 모달리티에 구애받지 않는 일관된 특징 표현을 학습하는 방법을 제시합니다.
이 논문은 의료 이미지 분류 모델의 숨겨진 체계적 오류를 발견하고 설명하기 위해 단일 모달리티 기반의 한계를 극복하는 최초의 자동화된 멀티모달 슬라이스 발견 프레임워크를 제안하고, MIMIC-CXR-JPG 데이터셋을 통한 실험을 통해 그 유효성을 입증했습니다.
이 논문은 외부 도구나 추가 학습 없이 MLLM 의 내부 모달리티 특징만을 활용하여 샘플 응답의 불일치 조정 시맨틱 볼륨을 계산함으로써 다양한 모달리티와 작업에서 기존 방법보다 우수한 불확실성 정량화 성능을 보이는 새로운 프레임워크인 UMPIRE 를 제안합니다.
이 논문은 확산 모델 추론 시 캐싱 오차를 예측하는 핵심 지표로 모델 출력의 민감도를 분석하여, 기존 휴리스틱 기반 방법의 한계를 극복하고 샘플별 동적으로 최적의 캐싱 시점을 선택하는 'SenCache' 프레임워크를 제안합니다.
이 논문은 현미경 이미지의 본질적인 다중 해상도 특성을 활용하기 위해 동일한 세계 좌표계에서 다양한 해상도의 관측치를 융합하는 새로운 트랜스포머 아키텍처인 MuViT 를 제안하고, 이를 통해 다양한 현미경 분석 작업에서 기존 모델보다 우수한 성능을 입증합니다.
이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.
이 논문은 전이 학습에서 발생하는 일관성 드리프트와 기하학적 분해 문제를 해결하기 위해 궤적 정렬 및 이중 참조 구조 보정 메커니즘을 도입한 GTASR 을 제안하여, 단일 단계로 고품질의 실세계 이미지 초해상도를 효율적으로 달성하는 방법을 제시합니다.
이 논문은 염색 및 스캐너 기술적 변이로 인한 배치 효과를 해결하기 위해 단일 소스 데이터셋에서 학습된 잠재 매니폴드 압축을 통해 배치 불변 임베딩을 생성하는 비지도 표현 학습 프레임워크인 '잠재 매니폴드 압축 (LMC)'을 제안하며, 이를 통해 다양한 데이터셋 간 분류 및 검출 작업에서 기존 방법보다 우수한 일반화 성능을 입증했습니다.
이 논문은 저수준 시각 특징과 고수준 행동 잠재 변수의 진화 속도 차이를 활용하여 계층적 인과 생성 과정을 모델링하고, 결정론적 과정과 희소 전이 제약을 통해 잠재 행동 변수의 식별성을 보장하는 약지도 행동 분할을 위한 계층적 행동 학습 (HAL) 모델을 제안하고 있습니다.
이 논문은 '모드 탐색 (Mode Seeking)'과 '평균 탐색 (Mean Seeking)'을 결합한 새로운 학습 패러다임을 제안하여, 제한된 장시간 데이터를 통한 서사적 일관성 학습과 짧은 영상 교사 모델로부터의 국소적 사실성 계승을 동시에 달성함으로써 고품질의 분 단위 긴 영상을 빠르게 생성하는 방법을 제시합니다.
이 논문은 라벨이 없는 초분광 이미지에서 복잡한 배경을 효과적으로 억제하고 다양한 도메인에 일반화할 수 있도록 확산 모델을 기반으로 한 새로운 배경 억제 확산 모델 (BSDM) 을 제안하여 초분광 이상 탐지 성능을 향상시킵니다.