Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
이 논문은 복잡한 실내 환경에서 약한 지도 (이진 점유율) 만으로 3D 언어 임베딩 가우시안을 활용하여 기존 방법들보다 뛰어난 성능을 보이는 단안 개방 어휘 점유율 예측 프레임워크를 제안합니다.
7585 편의 논문
이 논문은 복잡한 실내 환경에서 약한 지도 (이진 점유율) 만으로 3D 언어 임베딩 가우시안을 활용하여 기존 방법들보다 뛰어난 성능을 보이는 단안 개방 어휘 점유율 예측 프레임워크를 제안합니다.
이 논문은 수중 환경의 열악한 조건과 작은 표적 탐지 문제를 해결하기 위해 다중 스케일 특징 강화와 글로벌 컨텍스트 모델링을 통합한 새로운 SPMamba-YOLO 네트워크를 제안하며, URPC2022 데이터셋에서 기존 YOLOv8n 대비 4.9% 이상 높은 mAP@0.5 성능을 입증했습니다.
이 논문은 CLIP 스타일의 대비 학습에 유사성 그래프 정규화 최적 수송 (SIGROT) 손실을 통합하여 저자원 언어인 베트남어 이미지 - 텍스트 검색 성능을 획기적으로 개선한 최초의 기반 비전 - 언어 모델인 ViCLIP-OT 를 제안하고, 여러 벤치마크에서 기존 모델들을 능가하는 성과를 입증합니다.
이 논문은 스마트 안경의 실제 사용 환경을 반영한 최초의 종합적인 VQA 벤치마크인 'SUPERGLASSES'를 소개하고, 이를 기반으로 검색 증강 생성을 수행하는 새로운 멀티모달 에이전트 'SUPERLENS'를 제안하여 GPT-4o 를 능가하는 성능을 입증했습니다.
이 논문은 실제 환경에서 캡션이 누락된 상황에서도 기존 방법보다 우수한 성능을 보이는 'MoFit'이라는 새로운 프레임워크를 제안하여, 생성 모델이 학습 데이터를 암기했는지 여부를 캡션 없이도 정확히 추론할 수 있음을 입증합니다.
본 논문은 UAV 영상 내 초소형 객체 검출의 어려움을 해결하기 위해 LSKNet 백본, DAttention 및 AIFI 모듈, 그리고 동적 주파수 특징 강화 모듈을 통합한 UFO-DETR 프레임워크를 제안하여 정확도와 계산 효율성을 동시에 향상시킵니다.
이 논문은 3D LVLM 의 공간 인식 능력을 향상시키기 위해 점구름 데이터의 기하학적 구조를 보존하고 방향적 의존성을 고려한 구면 좌표 기반의 새로운 위치 임베딩 (SoPE) 과 다중 스케일 주파수 혼합 전략을 제안합니다.
이 논문은 MRI 이미지를 기반으로 한 시뮬레이션 데이터로 학습된 물리 기반 확산 모델 'IRSDE-Despeckle'을 제안하여 초음파 영상의 잡음을 효과적으로 제거하면서도 해부학적 구조를 보존하고 예측 불확실성을 정량화하여 임상 적용의 견고성을 강화하는 방법을 제시합니다.
이 논문은 대규모 시각 - 언어 모델의 환각 현상을 해결하기 위해, 기존 방법의 비효율성과 한계를 극복하고 단일 패스로 시각 증거를 손상시키지 않으면서 환각 패턴만 선택적으로 억제하는 'HulluEdit'라는 새로운 프레임워크를 제안합니다.
이 논문은 GNSS, LiDAR SLAM, NeRF 기술을 융합하여 숲의 어린나무를 정밀하게 지리 위치화하고 3D 재구성함으로써 기존 방법보다 정확한 생태학적 모니터링을 가능하게 하는 새로운 파이프라인을 제안합니다.
이 논문은 캡션 생성 모델이 뚜렷한 스타일적 특징을 보이지만, 이를 기반으로 생성된 이미지에서는 이러한 특징이 사라지는 비대칭적 현상을 체계적으로 분석하고, 이를 통해 캡션 모델의 스타일적 특성과 텍스트 - 이미지 생성 모델의 프롬프트 준수 능력을 정량화하는 새로운 방법론을 제시합니다.
이 논문은 선형 역문제로 표현 가능한 다양한 애니메이션 작업에 대해 훈련 없이도 정확한 공간적 제약을 만족하면서도 자연스러운 동작을 생성할 수 있는 'ProjFlow'라는 새로운 샘플링 기법을 제안합니다.
이 논문은 다중 스케일 숨겨진 코드와 조건부 트랜스포머 모듈을 활용하여 딥페이크 탐지를 넘어 이미지 복원 및 사실적 정보 검색을 가능하게 하는 통합 프레임워크를 제안하고, 이를 평가하기 위한 ImageNet-S 벤치마크를 구축했습니다.
이 논문은 비디오 이해의 효율성과 성능을 동시에 향상시키기 위해 외부 분할 파이프라인 없이 비디오 모델과 통합되어 학습되며, 비디오의 길이에 구애받지 않고 의미적 복잡도에 따라 동적으로 토큰 세분화를 조절하는 종단간 비디오 토크나이저 'TrajTok'을 제안합니다.
이 논문은 단일 이미지에서 구조화된 3D 장면을 생성하기 위해 엔트로피 최적 수송 (Optimal Transport) 을 활용하여 이미지 패치와 3D 부분 잠재 변수 간의 배타적 1 대 1 라우팅을 강제하고, 이를 통해 객체 간 응집성과 기하학적 정밀도를 크게 향상시킨 'SceneTransporter' 프레임워크를 제안합니다.
이 논문은 가려짐으로 인한 관절 누락에 강인한 자기지도 학습 기반의 마스킹 오토인코딩 사전 학습 모델을 도입하여, 기존 방법들보다 더 강인하고 정확한 인간 궤적 예측을 가능하게 하는 방법을 제안합니다.
이 논문은 광학 흐름 기반의 틸트 보정과 가우스 스패팅을 결합하여 대류기류로 인한 왜곡을 효과적으로 완화하고 합성 및 실세계 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 보이는 새로운 프레임워크 'GSTurb'를 제안합니다.
이 논문은 생체 및 환경적 노화 단서를 인코딩하는 프롬프트 정제 전략, 튜닝이 불필요한 역방향 매핑 방법, 그리고 적응형 어텐션 제어 메커니즘을 도입하여 기존 방법들의 한계를 극복하고 신원 유지와 배경 일관성을 보장하는 고품질 얼굴 노화 변환 프레임워크인 'Face Time Traveller (FaceTT)'를 제안합니다.
이 논문은 시간적 순서를 엄격히 준수하는 인과적 다중 스케일 집계 모듈과 예측 신뢰도에 기반한 동적 다중 소스 참조 전략을 도입하여, 내시경 영상에서 폴립의 위치 변화와 유사한 배경으로 인한 어려움을 극복하고 실시간 성능을 갖춘 최첨단 비디오 폴립 분할 모델인 CMSA-Net 을 제안합니다.
이 논문은 365nm~940nm 대역의 13 개 멀티스펙트럼 밴드를 활용하는 저비용 멀티스펙트럼 이미징 시스템과 머신러닝 프레임워크를 제안하여, 토양의 점토·실트·모래 함량과 USDA 토양 질감 분류를 각각 0.99 의 결정계수와 99% 이상의 정확도로 비파괴적으로 예측하는 현장 적용 가능한 방법을 제시합니다.