Beyond Ground: Map-Free LiDAR Relocalization for UAVs
이 논문은 UAV 의 비 GNSS 환경에서 고정밀 재로컬라이제이션을 가능하게 하는 맵 없는 LiDAR 프레임워크 MAILS 와 이를 평가하기 위한 대규모 데이터셋을 제안하며, 기존 자율주행 중심 방법론의 한계를 극복하고 UAV 비행 특성에 최적화된 성능을 입증합니다.
6593 편의 논문
이 논문은 UAV 의 비 GNSS 환경에서 고정밀 재로컬라이제이션을 가능하게 하는 맵 없는 LiDAR 프레임워크 MAILS 와 이를 평가하기 위한 대규모 데이터셋을 제안하며, 기존 자율주행 중심 방법론의 한계를 극복하고 UAV 비행 특성에 최적화된 성능을 입증합니다.
이 논문은 협동 지각 시스템의 대역폭 제한 문제를 해결하기 위해 시간적 연속성을 활용한 적응형 데이터 선택 프레임워크인 COOPERTRIM 을 제안하여, 불필요한 정보 전송을 줄이면서도 정확도를 유지하거나 향상시키는 방법을 제시합니다.
Diff-Aid 는 텍스트와 이미지 특징 간의 동적 상호작용을 추론 시 적응적으로 조절하여 텍스트-이미지 생성 모델의 프롬프트 준수도와 시각적 품질을 향상시키는 경량 플러그인 모듈입니다.
이 논문은 기존 3D 표현 방식보다 압축률이 1~3 배 높고 재구성 품질이 우수하며, 5 초 내 생성이 가능한 새로운 3D 씬 토크나이저 'SceneTok'을 제안합니다.
이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.
이 논문은 단일 이미지로부터 기하학적 일관성을 갖춘 탐험 가능한 3D 장면을 생성하기 위해 파노라마 생성, 3D 기하학적 구조 구축, 그리고 새로운 뷰 생성이라는 세 단계로 이루어진 One2Scene 프레임워크를 제안합니다.
이 논문은 테스트 시간 훈련 (TTT) 이 단순한 기억 메커니즘이 아니라, 학습된 선형 어텐션 연산자로 재해석될 수 있음을 보임으로써 모델의 동작을 설명하고 효율성을 개선하는 실용적 이점을 제시합니다.
본 논문은 데이터 이질성으로 인한 클라이언트 드리프트 문제를 해결하기 위해 공개 검증 세트를 기반으로 레이어별 그래디언트 노름을 계산하여 클라이언트별 일반화 능력을 평가하고 이를 통해 적응적 집계 방식을 제안하는 'FedVG' 프레임워크를 소개합니다.
이 논문은 스케일과 관점 변화로 인해 손실된 세부 정보를 복원하기 위해 언어 프롬프트의 모호성을 피하고 자기지도 학습 데이터 생성 및 키 포인트 매칭 기반 평가를 도입한 'FlowFixer'라는 정제 프레임워크를 제안하여 고충실도 주제 주도 생성의 새로운 기준을 제시합니다.
이 논문은 물리 법칙을 고려한 이미지 편집의 한계를 극복하기 위해 3 만 8 천 개의 물리 전이 데이터를 구축하고, 텍스트-시각 이중 추론 메커니즘을 갖춘 'PhysicEdit' 프레임워크를 제안하여 오픈소스 모델 중 물리적 사실성과 지식 기반 편집 성능을 획기적으로 개선했음을 보여줍니다.
이 논문은 fMRI 뇌 활동으로부터 동적 시각 경험을 재구성하는 새로운 프레임워크인 SemVideo 를 제안하며, 계층적 의미 정보 (SemMiner) 를 활용하여 기존 방법의 한계인 객체 일관성 부족과 시간적 비일관성 문제를 해결하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 기존 객체 감지 모델이 배경의 맥락 정보를 간과한다는 점을 지적하고, 도로나 숲과 같은 배경 정보를 활용하여 COCO 데이터셋에서 최첨단 성능을 달성한 'Association DETR' 모델을 제안합니다.
이 논문은 사전 학습된 모델과 반사 제거 모델 간의 의미적 간극을 해소하고, 합성 및 실제 데이터의 레이블 불일치를 해결하며, 주파수 사전 지식과 동적 어텐션 메커니즘을 통해 단일 이미지 반사 제거 성능을 극대화하는 'GFRRN'을 제안합니다.
이 논문은 텍스트 프롬프트에 명시된 동적 공간 관계를 정확히 반영하도록 텍스트-비디오 생성 모델을 개선하기 위해, 기하학적 기반의 DSR-SCORE 지표를 활용한 제로차 정규화 직접 선호도 최적화 (DPO) 를 포함한 자기 개선 프레임워크인 SPATIALALIGN 을 제안합니다.
이 논문은 테스트 시에 라벨 공간의 분포 변화로 인한 성능 저하를 해결하기 위해, 훈련 데이터를 기반으로 시각 및 텍스트 프로토타입을 사전 준비하고 적응형 가중치와 동적 우선순위 큐를 활용하여 미시적 조합을 학습하는 'WARM-CAT' 프레임워크를 제안하고, 새로운 벤치마크인 C-Fashion 데이터셋을 통해 최첨단 성능을 입증합니다.
이 논문은 IMU 와 자기 운동으로 인한 이벤트를 실시간으로 필터링하고 미래 운동을 예측하여 동적 이벤트를 사전에 억제하는 최초의 프레임워크를 제안하며, 기존 최첨단 방법보다 정확도와 추론 속도를 크게 향상시키고 토큰 가지치기를 통한 비전 트랜스포머 가속화 및 시각 오도메트리 정확도 개선 등 하류 응용 분야에 상당한 이점을 입증합니다.
이 논문은 구대칭 초기 압력 분포를 갖는 광음향 소스에 대한 파동 방정식으로부터 보편적인 해석적 일반 해를 유도하고, 다양한 분포에 대한 구체적 식과 원거리 근사식을 제시하며, 이를 위한 초고속 전방 시뮬레이션 코드를 오픈소스로 공개합니다.
이 논문은 Qwen 2.5 Omni 를 기반으로 오디오와 비디오 스트림을 통합 분석하여 오디오 - 비디오 딥페이크 탐지를 수행하는 새로운 모델 'AV-LMMDetect'를 제안하고, FakeAVCeleb 및 Mavos-DD 데이터셋에서 기존 방법들을 능가하는 성능을 입증했습니다.
이 논문은 13,000 회 이상의 실제 로봇 수행 데이터를 기반으로 행동 공간 (action space) 의 시간적·공간적 설계가 로봇 조작 정책 학습에 결정적인 영향을 미친다는 것을 실증적으로 규명하고, 델타 (delta) 행동 예측의 우수성과 관절 공간 및 작업 공간 표현의 상호 보완적 강점을 제시합니다.
이 논문은 그래픽 레이아웃 생성의 인간 선호도를 평가하기 위해 대규모 데이터셋 'DesignSense-10k'와 이를 기반으로 한 보상 모델 'DesignSense'를 제안하며, 기존 모델 대비 성능을 크게 향상시키고 레이아웃 생성의 질을 실질적으로 개선함을 보여줍니다.