No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency
이 논문은 복잡한 보정 없이 RGB 와 다른 센서 데이터 간의 정렬을 가능하게 하여 대규모 RGB-X 데이터 수집의 병목 현상을 해결하는 새로운 3D 일관성 기반 뷰 합성 방법을 제시합니다.
6799 편의 논문
이 논문은 복잡한 보정 없이 RGB 와 다른 센서 데이터 간의 정렬을 가능하게 하여 대규모 RGB-X 데이터 수집의 병목 현상을 해결하는 새로운 3D 일관성 기반 뷰 합성 방법을 제시합니다.
이 논문은 안전이 중요한 3D 장면 모델링을 위해 렌더링 품질과 계산 효율성을 해치지 않으면서 단일 순전달로 우연적 및 인식적 불확실성을 모두 정량화할 수 있는 '증거 기반 신경 방사선장 (Evidential NeRF)'을 제안하고, 이를 통해 기존 방법들보다 뛰어난 장면 재구성 정확도와 불확실성 추정 능력을 입증합니다.
이 논문은 자율주행의 비전 기반 BEV 세그멘테이션 성능을 향상시키기 위해, 학습 단계에서만 활용되는 역뷰 변환 네트워크를 통해 뷰 사이클 일관성 정규화 프레임워크인 CycleBEV 를 제안하고 다양한 변환 모델에서 일관된 성능 개선을 입증합니다.
이 논문은 사전 훈련된 비모달 모델의 파라미터를 수정하지 않고 초고차원 컴퓨팅을 활용한 상징적 연산만으로 시각 및 언어 모델 간의 정렬을 수행하여 효율적인 이미지 캡셔닝을 가능하게 하는 HDFLIM 프레임워크를 제안합니다.
이 논문은 대용량 이미지 데이터의 고차원 특징을 메모리 오버헤드 없이 효율적으로 처리하기 위해 배치 단위로 증분적으로 차원을 축소하는 알고리즘을 제안하여, 기존 최첨단 이상 탐지 모델의 학습 속도를 가속화하면서도 높은 정확도를 유지함을 보여줍니다.
이 논문은 XR(가상·증강·혼합 현실) 이 교육에 혁신을 가져오지만, 높은 비용과 기술적 난제, 개인정보 보호 및 윤리적 문제 등 광범위한 도입을 가로막는 장벽을 극복하고 규제 준수와 사이버 보안을 통해 혁신과 접근성, 윤리 사이의 균형을 찾는 것이 중요함을 논의합니다.
이 논문은 가시성 주석이 포함된 대규모 이기센트릭 HPE 데이터셋 'Eva-3M'을 구축하고, 가시성 정보를 명시적으로 활용하여 추정 정확도를 높인 새로운 방법론 'EvaPose'를 제안함으로써 기존 연구의 한계를 극복하고 최첨단 성능을 달성했습니다.
이 논문은 명령어 기반 이미지 편집 모델의 소규모 객체 편집 능력을 평가하기 위해 1,889 개의 샘플과 정교한 평가 프로토콜을 포함한 새로운 벤치마크 'DeepLookEditBench(DLEBench)'를 제안하고, 이를 통해 기존 모델들의 성능 격차를 실증적으로 분석합니다.
이 논문은 다양한 분포의 포인트 클라우드로부터 구조화된 3D 건물 추상화를 위해, 노이즈가 있거나 희소한 점으로부터 분포를 복원하는 조건부 잠재 확산 모델과 이를 기반으로 컴팩트한 메쉬를 생성하는 오토레귀시브 트랜스포머를 결합한 새로운 생성 프레임워크인 BuildAnyPoint 를 제안합니다.
이 논문은 LLM 기반 의미 분해와 QR 직교화를 통해 '과거 비교' 축만을 표적으로 하는 훈련 불필요 추론 제어 프레임워크인 SDLS 를 제안하여, 방사선 보고서 생성 시 과거 소견에 기반한 환각을 억제하면서도 임상적 정확도를 향상시키는 방법을 제시합니다.
이 논문은 CLIP 임베딩과 자연어 캡션을 활용한 비전 - 언어 정렬 기반 VL-WS 프레임워크를 제안하여, 다양한 농업 환경과 데이터 소스에 걸쳐 잡초 분할의 일반화 성능과 데이터 효율성을 크게 향상시켰음을 보여줍니다.
이 논문은 다양한 원격 탐사 기초 모델의 이질적인 인터페이스와 데이터 사양 문제를 해결하기 위해, 단일 코드 행으로 임의의 모델, 위치, 시기에 대한 임베딩을 효율적으로 추출할 수 있는 통합 파이썬 라이브러리 'rs-embed'를 제안합니다.
이 논문은 MLLM 의 계층적 특성을 반영하여 시각 토큰을 90% 까지 압축하면서도 성능을 유지하고 학습 속도를 1.72 배 가속화하는 새로운 효율성 프레임워크 'HiDrop'을 제안합니다.
이 논문은 Vuforia Area Target, NavMesh 및 A* 알고리즘을 결합한 증강현실 (AR) 기반 기술을 통해 기존 실내 내비게이션의 한계를 극복하고 정확성과 사용자 경험을 향상시킨 시스템을 제안합니다.
EgoGraph 는 여러 날에 걸친 초장기 일인칭 비디오의 이해를 위해 훈련이 불필요한 동적 지식 그래프 프레임워크를 제안하여, 개체 간의 장기적 의존성을 명시적으로 인코딩하고 복잡한 시간적 추론을 가능하게 함으로써 기존 방법의 한계를 극복하고 새로운 패러다임을 제시합니다.
이 논문은 통합 멀티모달 대규모 언어 모델이 텍스트 기반 추론에서는 탁월한 성능을 보이지만, 동일한 추론 결과를 이미지 생성으로 표현할 때 의미적 일관성이 무너지는 '시각적 생성 이해'의 한계를 VGUBench 를 통해 규명하고, 이 문제가 생성 품질 부족이 아닌 교차 모달 의미 정렬의 실패에서 기인함을 시사합니다.
이 논문은 2D 시각 입력뿐만 아니라 미래 3D 공간 기하학적 지식과 4D 역사적 시공간 표현을 명시적으로 통합하여 로봇 조작의 공간 추론 및 장기 계획 능력을 획기적으로 향상시킨 오픈소스 비전 - 언어 - 행동 모델인 StemVLA 를 제안합니다.
이 논문은 기존 재구성 오차 (1 차 차이) 기반 탐지기의 한계를 극복하기 위해 재구성 오차의 차이 (2 차 차이) 를 활용하는 '차이의 차이 (Difference-in-Difference)' 기법을 제안하여 AI 생성 이미지 탐지의 정확도와 일반화 성능을 향상시켰음을 보여줍니다.
이 논문은 시각적 객체 추적의 계산 비용을 줄이면서도 정확도를 유지하기 위해 검색 영역, 동적 템플릿, 정적 템플릿을 통합적으로 압축하는 새로운 단일 토큰 가지치기 프레임워크인 UTPTrack 을 제안하고, 다양한 벤치마크에서 기존 방법보다 뛰어난 성능과 효율성을 입증합니다.
이 논문은 언어, 음성, 동작, 비디오 생성을 단일 상호작용 루프에서 실시간으로 통합하고, 교차 모달 동기화 및 추론 능력 보존을 위한 새로운 프레임워크를 도입하여 자연스러운 대화형 에이전트 구현을 가능하게 하는 'U-Mind'를 제안합니다.