Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD
이 논문은 사전적인 희소성 (sparsity) 정보 없이도 거대 이상치 (gross outliers) 가 포함된 측정값에서 희소 신호를 정확하게 복원할 수 있는 새로운 알고리즘인 GFHTP을 제안하고, 이론적 수렴 보장과 실험적 우수성을 입증합니다.
4007 편의 논문
이 논문은 사전적인 희소성 (sparsity) 정보 없이도 거대 이상치 (gross outliers) 가 포함된 측정값에서 희소 신호를 정확하게 복원할 수 있는 새로운 알고리즘인 GFHTP을 제안하고, 이론적 수렴 보장과 실험적 우수성을 입증합니다.
이 논문은 메트릭 3D 구조를 해석 가능한 인덱싱 기반으로 활용하여, 특수 센서 없이도 일상적인 1 차원 RGB 영상으로부터 장기적 공간 기억을 구축하고 언어 기반 검색 및 질의응답을 가능하게 하는 'SpatialMem' 시스템을 제안합니다.
이 논문은 비디오 스트림을 통해 주변 공간 이해를 지속적으로 향상시키기 위해 유한한 공간 기억과 3D 점군 정보를 통합하여 실제 환경의 embodied 시스템에 배포 가능한 'OnlineSI' 프레임워크를 제안합니다.
이 논문은 외부 인코더나 이중 모델 없이 사전 훈련된 VAE 의 특성을 활용하여 확산 트랜스포머의 학습 효율성과 생성 품질을 동시에 향상시키는 경량화 프레임워크인 SRA 2 를 제안합니다.
FARTrack 는 작업별 자기 증류와 프레임 간 자동회귀 희소화 기법을 도입하여 리소스 제약 환경에서도 실시간으로 고품질 시각적 추적을 가능하게 하는 고속 자동회귀 추적 프레임워크입니다.
이 논문은 온라인 강화학습 기반 이미지 편집의 '주의 붕괴' 문제를 해결하기 위해 명시적인 공간 추론을 통해 정밀한 검증이 가능한 새로운 보상 모델 'SpatialReward'를 제안하고, 이를 통해 이미지 편집 모델의 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 UAV 의 지리 위치 추정에서 oblique aerial view 와 orthographic satellite view 간의 기하학적 불일치를 해결하기 위해, 수직 파사드 노이즈를 필터링하는 매크로 기하 구조 필터링과 깊이 기반의 미세 기하 스케일 적응 모듈을 통합한 (MGS)-Net 을 제안하여 University-1652 와 SUES-200 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 독점 로봇 인터페이스 없이도 시간 동기화된 다중 모달 데이터를 수집할 수 있는 오픈소스 시스템 'MiDAS'와 이를 통해 구축된 로봇 보조 최소 침습 수술용 데이터셋을 소개하며, 비침습적 센서 기반의 동작 인식 성능이 독점 텔레메트리와 유사함을 입증했습니다.
이 논문은 확산 모델과 능동적 뷰 샘플링을 활용하여 최소한의 입력 데이터로도 고품질의 3D 가우스 스플래팅 왕 타일을 생성하여 대규모 가상 환경을 위한 데이터 효율성을 획기적으로 개선하는 DAV-GSWT 프레임워크를 제안합니다.
이 논문은 실제 환경에서 발생하는 복잡한 공간적 불일치를 가진 교차 모달 초해상도 문제를 해결하기 위해, 정렬 인식 특징 변환기와 콘텐츠 인식 참조 필터를 온라인으로 공동 최적화하는 자기지도 학습 모델 'RobSelf'를 제안하며, 기존 방법들을 능가하는 성능과 효율성을 입증합니다.
이 논문은 가중치 수정 없이 고정된 비전 - 언어 모델 (VLM) 의 개념 추출 능력을 활용하여 해석 가능한 평가 차원을 자동 발굴하고, 관찰자 - 논객 - 심사자 체인을 통해 점수를 추출한 뒤 로컬 가중 릿지 회귀로 인간 선호도를 보정하는 'UrbanAlign'이라는 3 단계 사후 정렬 파이프라인을 제안하여 도시 장면 인식 작업에서 기존 방법론보다 뛰어난 성능과 해석 가능성을 달성했습니다.
이 논문은 비전 기초 모델에서 기하학적 구조 인식과 상호작용 인식이 각각 독립적으로 인코딩되어 있음을 규명하고, 이를 결합하여 학습 없이 제로샷 방식으로 affordance(행동 가능성) 추론을 수행하는 새로운 방법을 제시합니다.
이 논문은 단일 RTX 4090 GPU 환경에서 파인튜닝 없이 긴 내러티브 프롬프트와 참조 이미지를 바탕으로 행동 충실도, 대상 정체성, 배경 연속성을 모두 충족하는 일관된 시각적 서사를 생성하는 제로샷 파이프라인 'StoryTailor'를 제안합니다.
이 논문은 비디오 이해, 생성, 편집 및 재구성을 포함한 비디오 기반 모델의 통합 능력을 평가하기 위해 고화질 다중 샷 비디오와 인간 중심의 평가 시스템 (UniV-Eval) 을 갖춘 새로운 벤치마크인 UniVBench 를 제안합니다.
이 논문은 단백질 골격을 그래프로 표현하고 기하학적 정보를 활용한 그래프 신경망 (GNN) 을 도입하여, 단일 입자 Cryo-EM 데이터에서 원자 수준의 이질적인 3D 구조를 더 정확하게 재구성하는 새로운 방법을 제안합니다.
이 논문은 확산 모델의 추론 속도를 높이기 위해 기존 캐싱 방법의 한계를 극복하고, 경로 의존적 오차를 정량화한 비용 텐서를 동적 계획법을 통해 최적화하는 'DPCache'라는 새로운 훈련 없는 가속 프레임워크를 제안합니다.
이 논문은 자동화 파이프라인을 통해 대규모 시공간 장면 그래프 데이터셋인 'Synthetic Visual Genome 2(SVG2)'를 구축하고, 이를 기반으로 비디오를 단일 순전파로 장면 그래프로 변환하는 TRaSER 모델을 제안하여 기존 모델 대비 객체 및 관계 예측 성능을 획기적으로 향상시키고 비디오 질문 응답 정확도를 높였음을 보여줍니다.
이 논문은 다양한 하류 작업의 성능 피드백과 사용자 텍스트 지시를 실시간으로 반영하여 재학습 없이도 적응적으로 이미지를 dehazing 하는 새로운 폐루프 최적화 프레임워크를 제안합니다.
이 논문은 다양한 해상도에서의 일반화 능력을 향상시키기 위해 대규모 교차 스케일 데이터셋 'PanScale'과 벤치마크를 제안하고, 이미지 토큰화 길이를 스케일과 연계하여 설계된 새로운 아키텍처 'ScaleFormer'를 통해 기존 방법론의 한계를 극복한 범용 팬샤프닝 솔루션을 제시합니다.
이 논문은 개인 정보 보호를 위해 클라우드 의존 없이 단일 사용자 이미지와 의류 이미지만으로 고성능 모바일 기기에서 오프라인 가상 의류 입기 (VTON) 를 가능하게 하는 'Mobile-VTON' 프레임워크를 제안합니다.