FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration
이 논문은 적외선 및 가시광선 이미지 융합에서 기존 방법의 비효율성을 극복하고, 시각적 사전 지식을 활용한 'FusionRegister'라는 범용 교차 모드 정합 방법을 제안하여 정렬되지 않은 영역에 집중함으로써 뛰어난 정합 성능과 강인함을 달성함을 보여줍니다.
3880 편의 논문
이 논문은 적외선 및 가시광선 이미지 융합에서 기존 방법의 비효율성을 극복하고, 시각적 사전 지식을 활용한 'FusionRegister'라는 범용 교차 모드 정합 방법을 제안하여 정렬되지 않은 영역에 집중함으로써 뛰어난 정합 성능과 강인함을 달성함을 보여줍니다.
이 논문은 정적 및 동적 환경 요소에 대한 불확실성을 통합적으로 추정하고 이를 계획 과정에 반영하여 종단간 자율주행의 신뢰성과 성능을 향상시키는 경량화된 프레임워크 'UniUncer'를 제안합니다.
본 논문은 스트리밍 비주얼 기하학 변환기 (VGGT) 의 메모리 제한 문제를 해결하기 위해, 토큰 단위가 아닌 프레임 단위의 일관된 증거 블록을 요약하여 고정된 용량의 메모리 내에서 장기적인 3D 추론의 정확성과 안정성을 동시에 확보하는 'FrameVGGT'를 제안합니다.
이 논문은 인간 시연으로부터 3D 공간 정보와 손-물체 상호작용 패턴을 자동으로 추출하는 'Human2Afford' 파이프라인을 통해 구축된 데이터로, 접촉 영역과 접촉 자세를 instruction 에 기반하여 동시에 예측하는 'RoboPCA' 프레임워크를 제안하여 로봇 조작의 일반화 성능을 향상시킵니다.
이 논문은 운동 벡터, 잔차 맵, 프레임 유형과 같은 압축 도메인 정보를 활용하여 정합 오차를 줄이고 계산 효율을 극대화함으로써 실시간 온라인 비디오 초해상도 성능을 획기적으로 개선한 CDA-VSR 을 제안합니다.
이 논문은 가려진 관절 정보를 복원하고 노이즈가 있는 모션을 정제하기 위해, 키네매틱 어텐션 집계 (KAA) 메커니즘을 통해 구조적·시간적 모션 패턴을 효율적으로 학습하여 모션 정제, 완성, 인터비닝 등 다양한 작업에 적응적으로 적용 가능한 마스킹된 모션 확산 모델 (MMDM) 을 제안합니다.
이 논문은 비미분 가능한 보상 신호를 활용하여 소수 단계 확산 모델의 학습을 가능하게 하는 새로운 강화 학습 패러다임인 TDM-R1 을 제안하고, 텍스트 렌더링 및 시각적 품질 등 다양한 작업에서 최첨단 성능을 입증합니다.
본 논문은 물리적 일관성이 부족한 기존 공간 표현의 한계를 극복하기 위해 객체 부분 간의 기하학적 관계를 명시적으로 모델링하는 'PARSE' 프레임워크와 1 만 개의 3D 실내 장면 데이터셋을 제안하며, 이를 통해 공간 추론 능력과 물리적으로 타당한 3D 장면 생성의 정확도를 획기적으로 향상시킵니다.
이 논문은 비전 - 언어 모델의 공간 지능 격차를 해소하기 위해 공학적 인지에 기반한 '시뮬레이션 및 추론' 메커니즘을 도입하여 정사각도 (Orthographic Views) 를 기반으로 한 3 차원 공간 추론 프레임워크인 3ViewSense 를 제안하고, 이를 통해 가림 현상이 심한 장면에서의 객체 계수 및 일관된 공간 추론 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 고정된 시점의 비디오에서 장기적인 객체 추적 및 재식별을 위해 정적 배경 구조를 기반으로 한 '앵커 맵'을 활용하여 대상이 장시간 사라지거나 가려져도 재입장 시 신속하게 재포착하고 일관된 추적을 가능하게 하는 AR2-4FV 모델을 제안합니다.
이 논문은 짝지어진 학습 데이터가 없는 Rb-82 동적 심장 PET 영상의 고노이즈 문제를 해결하기 위해, 시간적 일관성을 유지하며 정량적 정확도를 보존하는 비지도 확산 모델 'DECADE'를 제안하고 그 유효성을 입증했습니다.
이 논문은 의료 영상 품질 저하 상황에서 멀티모달 대형 언어 모델 (MLLM) 의 성능과 신뢰성을 다차원적으로 평가하기 위해 18 가지 저하 유형과 30 가지 세부 능력 차원을 포함한 새로운 벤치마크 'MedQ-Deg'를 제안하고, 모델이 정확도 급감에도 불구하고 과도한 확신을 보이는 'AI 더닝-크루거 효과'를 포함한 주요 발견 사항을 제시합니다.
이 논문은 위성 원격 탐사 영상의 데이터 이질성 문제를 해결하기 위해 기하학적 지식과 이중 지식 증류 (Dual Knowledge Distillation) 를 결합한 GK-FedDKD 프레임워크를 제안하고, EuroSAT 데이터셋에서 기존 최첨단 방법론보다 평균 68.89% 높은 성능을 달성함을 입증합니다.
이 논문은 기존 픽셀 기반 방식의 한계를 극복하고 실제 예술 작품과 유사한 브러시 스트로크 도메인에서 이미지를 표현하여 시각적 품질을 향상시키는 새로운 스타일 전이 기법을 제안합니다.
본 논문은 비전 - 언어 모델의 순서적 숫자 이해 및 일반화 한계를 진단하기 위해 순서적 크기, 배열 복잡도, 객체 수를 제어하는 39,000 개의 질문 - 답변 쌍과 단계별 추론 평가 도구를 포함한 'OrdinalBench' 벤치마크를 제안합니다.
이 논문은 고해상도 이미지를 효율적으로 표현하기 위해 시드 기반의 구조화된 2D 가우시안을 도입하고 다중 스케일 피팅 전략을 통해 기존 방법 대비 압축률과 최적화 속도를 획기적으로 개선한 SGI(Structured Gaussian Image) 프레임워크를 제안합니다.
이 논문은 4D 레이더와 카메라 데이터를 융합하여 악천후 및 저조도 환경에서도 견고한 3D 의미적 점유율 예측을 가능하게 하고, 자동 라벨링 데이터셋을 통해 학습 비용을 절감하는 새로운 접근법을 제시합니다.
이 논문은 다단계 롤아웃 시 일관성을 유지하고 추론 효율성을 높이기 위해 구조 사전학습, 행동 조건 일관성 (ACC) 후학습, 그리고 추론 일관 상태 증류 (ICSD) 를 도입한 계획 기반 이미지 목표 탐색을 위한 모바일 월드 모델 (MWM) 을 제안합니다.
이 논문은 확산 모델의 생성 과정을 편집으로 간주하여 복잡한 영역은 대형 모델이, 단순한 영역은 소형 모델이 담당하는 'HybridStitch'라는 새로운 패러다임을 제안함으로써 Stable Diffusion 3 에서 기존 혼합 모델 방법론보다 빠른 1.83 배의 가속화를 달성했다고 요약할 수 있습니다.
이 논문은 하와이 구름 숲에서 저비용 카메라 트랩과 비전 기반 모델을 활용하여 개별 식물의 개화 및 결실 같은 생리적 변화와 동식물 간 상호작용을 기존 방법보다 정밀하게 추적하고 분석하는 새로운 접근법을 제시합니다.