PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition
PRISM 은 관절별 잠재 벡터 분해와 잡음 없는 조건 주입 기법을 통해 텍스트, 포즈, 긴 시퀀스 생성 등 다양한 태스크를 단일 모델로 통합하며 기존 방법의 한계를 극복한 스트리밍 인간 모션 생성 프레임워크를 제안합니다.
3921 편의 논문
PRISM 은 관절별 잠재 벡터 분해와 잡음 없는 조건 주입 기법을 통해 텍스트, 포즈, 긴 시퀀스 생성 등 다양한 태스크를 단일 모델로 통합하며 기존 방법의 한계를 극복한 스트리밍 인간 모션 생성 프레임워크를 제안합니다.
이 논문은 희소한 병리학자 주석과 지수 이동 평균 기반의 교사 네트워크를 활용하여 점진적으로 가짜 마스크를 정제하는 약지도 교사 - 학생 프레임워크를 제안함으로써, 비용 효율적이고 일반화 가능한 대장암 조직병리선 분할을 가능하게 합니다.
이 논문은 단일 주체의 캡처 데이터만으로도 다양한 표정 일반화 능력을 향상시키기 위해, 학습 중 유사한 표정을 검색하여 증강하는 'RAF(Retrieval-Augmented Faces)' 기법을 제안하고 템플릿 없는 애니메이션 가능한 헤드 아바타의 표현 충실도를 크게 개선함을 보여줍니다.
이 논문은 RGB-D 객체 탐지를 위해 원시 깊이 맵의 공간적 상호작용 패턴에 따라 동적으로 조정되는 RBF 가중 초-전환 (hyper-involution) 과 정보 손실 없이 특징을 융합하는 학습 가능한 업샘플링 레이어를 도입하여, 실시간으로 높은 성능을 달성하는 두 스트림 모델을 제안합니다.
이 논문은 포즈 정보를 활용한 컨텍스트 학습 (PA-ICVL) 을 통해 비현실적 렌더링 (NPR) 영역의 시각적 환각을 기존 RGB 기반 방법보다 훨씬 정확하게 탐지하는 새로운 비전 - 언어 모델 (VLM) 시스템을 제안하고 그 유효성을 입증합니다.
이 논문은 의료 분할 작업의 성능을 직접적으로 최적화하기 위해 분할 모델의 의미론적 기울기를 피드백으로 활용하는 이수준 최적화 프레임워크 'Fuse4Seg'를 제안하여, 기존 시각 중심 융합 방식의 한계를 극복하고 동시에 물리적 정확성과 임상적 해석 가능성을 보장합니다.
이 논문은 파라미터 효율적 미세 조정 (PEFT) 의 일반화 성능을 향상시키기 위해 적응기에서 학습된 특징에 곱셈 노이즈를 가해 일관성 정규화를 수행하는 'PACE'를 제안하며, 이를 통해 그래디언트 노름을 감소시키고 사전 학습된 지식을 유지하여 다양한 시각 및 언어 작업에서 기존 방법들을 능가하는 성능을 입증합니다.
이 논문은 UAV 영상에서 배경 노이즈를 줄이고 행동 관련 객체 정보에 집중하여 미래 동작을 예측하는 'FALCON'이라는 자기지도 학습 전처리 방법을 제안함으로써, UAV 행동 인식의 정확도를 높이고 추론 속도를 크게 개선했다고 요약할 수 있습니다.
이 논문은 고해상도 사진 데이터셋과 사진가들의 전문적인 가이드를 기반으로 한 얼굴 중심 생성 확산 사전 지식을 학습하여, 기존 방법의 한계를 극복하고 눈과 입과 같은 중요한 부위의 아티팩트를 최소화하면서도 사실적인 안면 복원 결과를 달성하는 'AuthFace' 프레임워크를 제안합니다.
이 논문은 추가 데이터셋 없이 자기일관성 학습 전략과 경량 네트워크를 활용하여 불규칙하게 수집된 지진 데이터를 고품질로 재구성하는 효율적인 자기지도 학습 방법을 제안합니다.
이 논문은 비디오 콘텐츠의 높은 중복성을 해결하기 위해 사용자 지시를 기반으로 관심 영역을 식별하고 적응형 풀링을 통해 시각 토큰을 최대 18 배까지 압축하면서도 성능을 유지하는 프롬프트 기반 풀링 LLaVA(PPLLaVA) 를 제안하여 비디오 이해의 효율성과 처리량을 획기적으로 개선합니다.
이 논문은 생성 속도와 제어력을 개선하기 위해 모션 공간에서 표현을 생성하는 트랜스포머 기반의 확산 모델인 'Ditto'를 제안하여, 실시간 대화형 애플리케이션에 적합한 정교한 표정과 제어가 가능한 실시간 talking head 합성 프레임워크를 제시합니다.
이 논문은 다양한 비전 인코더의 시각 토큰을 효과적으로 통합하는 경량화된 설계 원칙을 제안하고, 이를 적용한 'LEO'라는 새로운 아키텍처가 다양한 벤치마크와 자율주행 도메인에서 기존 혼합 비전 인코더 (MoVE) 기반 모델보다 우수한 성능을 보임을 입증합니다.
이 논문은 3D 가우스 스플래팅의 기하학적 정확도를 높이고 플로터 아티팩트를 줄이며 메모리 효율성을 개선하기 위해 고유값 기반의 기하학적 손실 항을 도입한 'FeatureGS'를 제안합니다.
이 논문은 3D 가우스 스플래팅과 확산 모델을 활용한 새로운 뷰 합성 기법과 재투영 오류 기반의 점진적 픽셀 필터링 전략을 결합하여, 희소하거나 극단적인 시점에서도 신뢰할 수 있는 픽셀만 선별적으로 학습함으로써 장면 좌표 회귀 기반의 시각적 국소화 정확도를 획기적으로 향상시키는 PoI 프레임워크를 제안합니다.
이 논문은 대규모 멀티모달 언어 모델을 활용한 과학적 발견, 실험, 콘텐츠 생성 및 평가의 5 가지 핵심 영역에 대한 데이터셋, 방법론, 평가 전략, 한계 및 윤리적 문제를 포괄적으로 검토하여 AI 기반 과학 연구의 현재와 미래를 조명하는 종합적인 조사를 제공합니다.
이 논문은 대규모 데이터와 연산 자원에 의존하지 않고도 소규모 데이터 환경에서 강력한 시각 표현을 학습할 수 있도록, 컨볼루션 인덕티브 바이어를 도입한 SCOTT 토크나이저와 잠잠 공간에서의 MIM-JEPA 학습을 결합한 새로운 자기지도 학습 프레임워크를 제안합니다.
이 논문은 해상도 단계별로 트랜스포머 레이어를 점진적으로 추가하고 BridgeFlow 모듈을 통해 연결하는 'NAMI'라는 새로운 아키텍처를 제안하여, 이미지 생성의 추론 속도를 64% 단축하면서도 품질을 유지하는 효율적인 방법을 제시합니다.
이 논문은 외부 학습 데이터 없이도 슬라이스 프로파일 추정, 슬라이스 간격, 도메인 이동 및 임의의 업샘플링 인자를 모두 해결하여 2D MR 볼륨의 이방성 해상도를 향상시키는 자기 초해상도 방법인 ECLARE 를 제안하고, 이를 통해 신호 복원 및 하류 작업에서 기존 방법들을 능가하는 성능을 입증합니다.
이 논문은 디지털 고도 모델, 항공 이미지, 지형 및 수문 벡터 데이터 등을 통합한 AI 준비형 다중 모달 데이터셋 'EarthScape'를 소개하고, 이를 통해 표층 지질 매핑의 효율성을 높이고 다양한 모달리티 융합 및 도메인 적응을 위한 벤치마크를 제공한다고 요약할 수 있습니다.