DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving
이 논문은 자율주행의 3D 점유율 예측을 위해 깊이 기반 리프팅에 높이 점수 프로젝션과 방향 인식 합성곱을 도입하여 정밀한 기하학적 구조를 유지하면서도 높은 추론 속도를 달성한 DA-Occ 프레임워크를 제안합니다.
6572 편의 논문
이 논문은 자율주행의 3D 점유율 예측을 위해 깊이 기반 리프팅에 높이 점수 프로젝션과 방향 인식 합성곱을 도입하여 정밀한 기하학적 구조를 유지하면서도 높은 추론 속도를 달성한 DA-Occ 프레임워크를 제안합니다.
이 논문은 사전 공격 유형 지식 없이도 비전 - 언어 모델을 활용해 악성 백도어 공격을 자동으로 탐지하고 중립화 가이드를 생성하여 텍스트 - 이미지 모델의 편향을 제거하면서도 원본 모델의 화질과 다양성을 유지하는 'AutoDebias' 프레임워크를 제안합니다.
이 논문은 3D 의료 영상 분할을 위해 원격 탐사 모델인 AMBER 를 기반으로 주파수 도메인에서의 전역 토큰 믹싱을 수행하는 AMBER-AFNO 아키텍처를 제안하여, 기존 트랜스포머의 계산 병목 현상을 해결하면서도 경량화된 모델 크기로 최고 수준의 분할 성능을 달성함을 보여줍니다.
AnimateScene 는 3D 장면 재구성과 4D 인간 애니메이션을 통합하여 인간과 배경 간의 충돌 방지, 조명 및 스타일 정합, 그리고 동적 카메라 궤적 처리를 가능하게 하는 통합 프레임워크를 제안합니다.
이 논문은 꽃과 곤충 간의 전기적 상호작용 데이터를 딥러닝 (U-Net) 모델에 학습시켜, 곤충이 감지한 전기장으로부터 꽃의 기하학적 형태를 정확하게 재구성하는 새로운 역전기 영상화 프레임워크를 제시합니다.
이 논문은 다이어그램의 구조적 특성을 반영한 '하드' 샘플과 두 가지 특수 손실 함수를 도입한 대비 학습 방식을 제안하여, 기존 멀티모달 모델이 다이어그램 이해에서 보이는 한계를 극복하고 이미지 - 텍스트 매칭 및 시각적 질문 답변 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 이해 모듈이 생성 모듈의 디자인 책임을 명확히 분담하도록 하는 'Draw-In-Mind(DIM)' 데이터셋과 모델을 제안하여, 상대적으로 작은 파라미터 규모로도 최신 이미지 편집 벤치마크에서 최상위 성능을 달성함을 보여줍니다.
이 논문은 구면 가우시안 로브를 도입하고 원시 개수 및 파라미터를 통합적으로 최적화하는 'MEGS' 프레임워크를 제안하여, 기존 3D 가우시안 스플래팅의 렌더링 메모리 병목 현상을 해결하고 엣지 디바이스에서의 효율성을 크게 향상시켰습니다.
이 논문은 continual learning 환경에서 모델의 적응 능력 (가소성) 저하를 완화하기 위해 활성화 함수의 형태와 포화 특성을 분석하여 새로운 비선형 함수를 제안하고, 다양한 과목과 강화학습 환경에서 그 유효성을 입증했습니다.
이 논문은 수동 UV 매핑의 의존성을 해소하고 의미론적 일관성과 가시성 (시각적 가림) 을 고려하여 3D 메시 파라미터화를 자동화하는 비지도 학습 프레임워크를 제안합니다.
이 논문은 자율주행을 일반화된 언어 문제로 재해석하여 프론트뷰 카메라 입력으로부터 직접 궤적을 생성하는 단일 단계 엔드투엔드 프레임워크인 Max-V1 을 제안하며, nuScenes 데이터셋에서 기존 방법 대비 30% 이상 성능을 향상시키고 뛰어난 도메인 간 일반화 능력을 입증했습니다.
이 논문은 3D 가우시안 스플래팅을 N 차원 이방성 베타 커널로 일반화하여 공간, 각도, 시간 차원의 복잡한 광원 효과를 보조 네트워크 없이 실시간으로 렌더링하고 해석 가능한 속성을 학습하는 통합 프레임워크인 '범용 베타 스플래팅 (Universal Beta Splatting)'을 제안합니다.
이 논문은 저조도 환경에서 적외선 (IR) 영상의 활성 발광 패턴 노이즈를 제거하여 고품질 이미지를 복원하고, 이를 통해 RGB 기반 로봇 비전 시스템이 외부 조명 없이도 극저조도 환경에서 안정적으로 작동할 수 있도록 하는 'CLEAR-IR'이라는 새로운 접근법을 제안합니다.
이 논문은 기계 학습 연산자 (MLO) 가 훈련 해상도와 다른 해상도에서 추론할 때 발생하는 에일리어싱 및 취약성 문제를 지적하고, 이를 해결하기 위해 다중 해상도 훈련 프로토콜을 제안합니다.
본 논문은 DINOv2 의 SAE 를 통해 선형 표현 가설을 검증하고, 작업별 개념의 기능적 특성을 규명한 후, 토큰 표현이 단순한 희소성이 아닌 아키타입의 볼록 혼합으로 구성된다는 '민코프스키 표현 가설 (MRH)'을 제안하여 비전 트랜스포머의 해석 가능성을 새로운 기하학적 관점에서 재정립합니다.
이 논문은 모노큘러 4D 재구성의 불확실성을 고려하여 가우시안 원시들의 신뢰도를 기반으로 시공간 그래프를 구축하고 불확실성 인식 최적화를 통해 가려짐과 극단적인 시점에서의 재구성 품질을 향상시키는 'USplat4D' 프레임워크를 제안합니다.
이 논문은 멀티모달 대형 언어 모델 (MLLM) 을 활용하여 객체 간 활동과 상호작용에 대한 텍스트 설명을 생성하고 이를 노멀 비디오의 설명과 비교함으로써 복잡한 상호작용 기반 이상을 탐지하고 설명 가능성을 제공하는 새로운 반지도식 비디오 이상 탐지 프레임워크를 제안합니다.
이 튜토리얼은 3D 가우스 스플래팅 (3DGS) 의 이론적 배경과 파이프라인을 개괄하고, 메모리 효율성 및 조명 표현 등의 한계를 해결하기 위한 최근 연구 동향과 표면 재구성, 아바타 모델링 등 다양한 응용 분야를 종합적으로 다룹니다.
이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.
이 논문은 기존 CLIP 기반 방법의 한계를 극복하고, 시각 토큰과 텍스트 서브스페이스 간의 동적 정렬을 최적 수송 문제로 모델링하여 토큰 단위의 적응을 가능하게 함으로써 제로샷 이상 탐지 성능을 향상시킨 TokenCLIP 을 제안합니다.