SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation
이 논문은 기존 다중 스케일 INR 생성기의 파라미터 중복 문제를 해결하기 위해 공간 혼합 모듈과 채널 혼합 모듈을 분리하고, 파라미터의 대부분을 차지하는 채널 혼합 모듈을 모든 스케일에 재귀적으로 공유하는 'SRNeRV'라는 새로운 프레임워크를 제안하여 압축 효율과 성능을 동시에 향상시켰습니다.
3915 편의 논문
이 논문은 기존 다중 스케일 INR 생성기의 파라미터 중복 문제를 해결하기 위해 공간 혼합 모듈과 채널 혼합 모듈을 분리하고, 파라미터의 대부분을 차지하는 채널 혼합 모듈을 모든 스케일에 재귀적으로 공유하는 'SRNeRV'라는 새로운 프레임워크를 제안하여 압축 효율과 성능을 동시에 향상시켰습니다.
이 논문은 2D 참조 이미지와 3D 메쉬 간의 정렬 없이도 UV 공간에서 3D 일관성을 보장하는 고품질 의류 텍스처를 효율적으로 합성하기 위해 UV 위치 지도와 캐릭터 가이드 확산 모델을 활용한 'GarmentPainter' 프레임워크를 제안합니다.
이 논문은 MICCAI 2024 에서 공개된 UWF4DR 챌린지 데이터를 활용하여 초광시야 (UWF) 영상 기반의 당뇨망막병증 및 당뇨황반부종 검출을 위해 최신 딥러닝 모델과 주파수 도메인 분석, 특징 융합 기법의 성능을 평가하고 설명 가능성을 검증했습니다.
이 논문은 센서 고장 시에도 단일 모드만으로 작동할 수 있도록 길이 적응형 멀티모달 융합 (LAMMA) 과 'Pretrain-Align-Fuse-RD'학습 전략을 도입하여 협업 인식의 성능을 유지하는 SiMO 를 제안합니다.
이 논문은 이산적 투표 방식을 연속적인 점수 함수로 대체하고 지속적 호몰로지의 지속적 특징을 활용하여 점군에서 선을 탐지하는 새로운 형태의 호프 변환을 제안하고, 이를 효율적으로 계산하는 알고리즘을 구현했습니다.
이 논문은 자율주행 환경의 복잡한 동적 변화를 효과적으로 포착하기 위해 VGGT 를 확장하여 점의 운동을 시계열적으로 일관되게 예측하고 3D 가우시안 스플래팅을 통해 동적 4D 장면을 재구성하는 통합 피드포워드 프레임워크인 DynamicVGGT 를 제안합니다.
이 논문은 다단계 확산 모델의 가중치 변화가 주로 크기보다 방향에서 발생한다는 통찰을 바탕으로, 가중치 방향을 저랭크 회전 행렬로 모델링하는 LoRaD 어댑터를 제안하여 적은 학습 파라미터로 한 단계 이미지 합성에서 최첨단 성능을 달성하는 WaDi 프레임워크를 개발했습니다.
이 논문은 고속 환경에서 모션 블러와 프레임 속도 제한을 극복하기 위해 이벤트 카메라의 높은 시간 해상도를 활용하여 6D 객체 포즈 추적을 위한 학습 없는 융합 방법을 제안하고, 이벤트 기반 광류로 포즈를 예측한 후 템플릿 기반 보정으로 정밀도를 높여 기존 최첨단 알고리즘보다 우수한 성능을 입증합니다.
이 논문은 기존 방법으로는 제거하기 어려운 광범위한 개념을 효과적으로 삭제하기 위해, 모델의 잠재 임베딩 기하학을 분석하여 개념 프로토타입을 추출하고 이를 부정적 조건 신호로 활용하는 새로운 접근법을 제안합니다.
이 논문은 음향 신경 암시적 표현을 활용한 'OSCAR' 방법을 제안하여, 라벨 없이 초음파의 음향 신호 전달을 추적함으로써 척추 해부학의 가려진 영역을 정확하게 3D 로 완성하고 기존 최첨단 방법보다 HD95 점수를 80% 개선함을 보여줍니다.
이 논문은 비전-언어 모델의 시각 인코더를 수정하거나 추가 파라미터를 학습하지 않고도, 행동의 의도·운동·객체 상호작용 등 다양한 추상화 수준의 구조화된 의미 프롬프트를 도입하여 제로샷 행동 인식 성능을 크게 향상시킨 경량 프레임워크 'SP-CLIP'을 제안합니다.
이 논문은 3D 비전 - 언어 인코더를 활용해 리포트를 기반으로 유사 임상 사례의 해부학적 주석을 검색하여 ControlNet 을 통해 주입함으로써, 텍스트 기반 CT 생성 모델의 해부학적 일관성과 공간 제어 능력을 동시에 향상시키는 검색 증강 방식을 제안합니다.
이 논문은 LLM 과 VLM 을 활용해 자동 생성된 개념 기반 마스크를 사용하여 비전 트랜스포머 (ViT) 의 내부 관련성 지도를 정렬함으로써, 배경과 같은 허위 상관관계에 의존하는 문제를 해결하고 분포 변화에 대한 강건성을 향상시키는 새로운 파인튜닝 프레임워크를 제안합니다.
이 논문은 2D 픽셀 정합의 한계를 극복하고 4D 시공간 모델링을 통해 동적 HDR 장면을 물리적으로 타당하게 재구성하는 새로운 프레임워크 HDR-NSFF 와 이를 평가하기 위한 실세계 HDR-GoPro 데이터셋을 제안합니다.
이 논문은 VLM 기반 GUI 에이전트의 응답 효율성을 저해하는 새로운 백도어 공격 'SlowBA'를 제안하며, 특정 트리거 패턴 하에서 과도한 추론 체인을 유도하여 응답 지연을 발생시키는 메커니즘과 이를 위한 강화학습 기반의 이단계 주입 전략을 소개합니다.
이 논문은 3,000 명 이상의 인간 참가자와 AI 모델을 비교하여, 인간이 손 - 물체 상호작용과 같은 희소하고 의미 있는 시각적 단서에 의존하는 반면 AI 는 맥락 및 저수준 특징에 더 의존하며 시간적 교란에 덜 민감하다는 인간과 AI 의 이기중심 행동 인식 성능 차이를 규명합니다.
이 논문은 디지털 병리학에서 다중 인스턴스 학습 (MIL) 모델의 주석 열지도 (heatmap) 의 유효성을 검증하기 위한 새로운 평가 프레임워크를 제시하고, 기존 주의 메커니즘 기반 방법보다 교란 (perturbation) 및 계층별 관련성 전파 (LRP) 같은 기법이 모델 의사결정 메커니즘을 더 정확하게 반영하여 생물학적 통찰력을 제공할 수 있음을 대규모 벤치마크 실험을 통해 입증했습니다.
이 논문은 전역 및 지역 프롬프트 간의 중복을 방지하고 CLIP 의 본질적 기하학적 구조를 보존하기 위해 희소 최적 수송을 도입한 SOT-GLP 를 제안하여, 소수 샷 분류 정확도와 분포 외 (OOD) 탐지 성능을 동시에 향상시킨다는 점을 설명합니다.
이 논문은 로봇 조작을 위해 현재 세계 지식의 사전 정보를 기반으로 미래 상태의 절대적 예측이 아닌 변화량 () 을 모델링하는 새로운 프레임워크인 VLA 를 제안하고, 이를 통해 최첨단 성능과 효율성을 달성함을 보여줍니다.
이 논문은 확산 기반 데이터 증강 (DiffDA) 방법론을 체계적으로 분석하기 위해 'UniDiffDA'라는 통합 프레임워크를 제안하고, 이를 바탕으로 다양한 저데이터 분류 작업에 대한 공정한 벤치마크 평가와 실용적인 통찰력을 제공합니다.