RESBev: Making BEV Perception More Robust
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
2652 편의 논문
이 논문은 자율주행 시스템의 안전성을 위협하는 센서 열화 및 적대적 공격에 대응하기 위해, 기존 비전-비행 (BEV) 감지 모델에 플러그 앤 플레이 방식으로 적용 가능한 잠재적 세계 모델을 통해 손상된 관측 데이터를 복원하는 강인한 방법론인 RESBev 를 제안합니다.
이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.
이 연구는 두 개의 대규모 폐암 선별 코호트를 분석한 결과, 저선량 CT 를 통해 정량화한 폐쇄성 폐섬유증 (PPFE) 의 진행이 사망률 및 호흡기 관련 임상 결과와 독립적으로 연관됨을 확인하여, PPFE 진행 정량 평가가 선별 프로그램 내 고위험군 식별을 위한 유용한 영상 바이오마커가 될 수 있음을 시사합니다.
이 논문은 대규모 교차 멀티모달 데이터셋 없이도 기존 통합 모델을 강화학습 기반의 그룹 상대적 정책 최적화 (GRPO) 를 통해 시각적 스토리텔링 및 단계별 추론과 같은 멀티모달 교차 생성 능력을 갖춘 모델로 진화시키는 새로운 후속 훈련 전략을 제안합니다.
이 논문은 동적 인간 환경에서의 embodied question answering (EQA) 과제를 위해 인간 활동과 시간적 변화를 포함한 'DynHiL-EQA' 데이터셋을 제안하고, 모호한 관측을 검증하고 정보성 있는 증거만 선택적으로 기억에 저장하는 훈련 없는 'DIVRR' 프레임워크를 통해 occlusion 상황에서의 강건성과 추론 효율성을 동시에 향상시켰습니다.
이 논문은 다양한 시간 비행 비가시선 (ToF NLOS) 이미징 방법들을 공통된 수식과 하드웨어 설정 하에 체계적으로 분석하고, 이를 라돈 변환 및 주파수 영역 모델과 연관 짓는 동시에 동일한 실험 조건에서 성능을 비교 평가하여 향후 연구의 객관적 기준을 제시합니다.
본 논문은 엔트로피 기반 MCTS 와 시각적 환각 주입을 통해 대규모 프로세스 감독 데이터셋을 구축하고, 이를 활용한 토큰 단위 프로세스 보상 모델 (GeoPRM) 과 프로세스 인식 트리-GRPO 알고리즘을 도입하여 원격 탐사 분야에서 검증 가능한 단계별 추론과 테스트 시간 확장을 가능하게 한 'GeoSolver'프레임워크를 제안합니다.
이 논문은 원격 탐사 분야에서 기존 방법의 한계를 극복하고 정밀한 시각 - 언어 정렬을 달성하기 위해 다중 세분화 일관성 학습을 도입한 GeoAlignCLIP 프레임워크와 RSFG-100k 데이터셋을 제안하고, 다양한 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 핀홀 이미지의 단순 합을 넘어 전경 (panorama) 고유의 전체적 공간 및 맥락 관계를 포착하는 '전경 - 언어 모델링 (PLM)' 패러다임을 제안하고, 이를 위해 재학습 없이 기존 모델에 적용 가능한 희소 어텐션 모듈과 악천후 및 사고 등 다양한 전경 시나리오를 포함하는 대규모 데이터셋 'PanoVQA'를 개발하여 전경 기반의 견고한 시각 - 언어 추론을 가능하게 했습니다.
이 논문은 쿼리와 키의 부호만 남기고 비트 연산으로 어텐션을 계산하는 'BinaryAttention'을 제안하여, 학습 가능한 편향과 양자화 인식 훈련을 통해 1 비트 정량화 손실을 보완하고 기존 풀-프레시전 어텐션보다 정확도를 유지하면서 A100 GPU 에서 FlashAttention2 보다 2 배 이상 빠른 속도를 달성했습니다.
이 논문은 텍스트와 신체 부위의 정렬 부족 및 전체 동작의 비일관성이라는 기존 한계를 극복하기 위해, 부위별 동작 생성과 전체 동작 생성을 통합하는 'ParTY' 프레임워크를 제안하여 텍스트 기반 인간 동작 생성의 표현력과 일관성을 동시에 향상시킨다는 내용입니다.
이 논문은 DINO 비전 트랜스포머의 어텐션 맵을 인간의 주시 패턴과 유사한 시선 이동 (saccade) 전략으로 활용하여 이미지 전체를 처리하지 않고도 핵심 영역에 집중함으로써 분류 성능을 유지하거나 향상시키는 효율적인 이미지 분류 접근법을 제시합니다.
이 논문은 MRI 물리 특성을 반영한 명시적 가우시안 표현과 물리 기반 볼륨 렌더링을 도입하여, 데이터 의존성과 계산 비용을 줄이면서도 고품질의 제로샷 MRI 초해상도를 달성하는 새로운 프레임워크를 제안합니다.
이 논문은 양자화 인식 학습과 지식 증류의 한계를 극복하기 위해 인코더만 증류하는 '디코더 프리 증류'와 가중치 재조정 기법을 도입한 QDR 프레임워크를 제안하여, 엣지 디바이스에서 고품질 이미지 복원 성능과 실시간 처리 속도를 동시에 달성함을 보여줍니다.
이 논문은 원격 탐사 분야에서 생성 모델, 시맨틱 분할, 이미지 캡셔닝을 결합하여 해석 가능한 합성 데이터 증강 및 평가를 가능하게 하는 'ARAS400k'라는 대규모 데이터셋과 프레임워크를 제안하며, 이를 통해 합성 데이터와 실데이터를 함께 학습한 모델이 기존 실데이터 기반 모델보다 우수한 성능을 보임을 입증했습니다.
이 논문은 실시간 3D 가우스 스플래팅 (3DGS) 기반 온라인 SLAM 과 의미론적 정보를 통합하여 비정렬 영상 입력을 처리하고, 이를 통해 객체 감지 및 제로샷 캡션 생성과 같은 다운스트림 멀티모달 작업을 가능하게 하는 확장 가능한 오픈 프레임워크인 X-GS 를 제안합니다.
이 논문은 저조도 및 저텍스처 환경에서 기존 점 기반 VIO 의 한계를 극복하기 위해, 학습이 필요 없는 선분 디스크립터와 엔트로피 정규화 최적 수송을 활용한 선분 매칭, 그리고 신뢰도 적응적 가중치 기법을 도입하여 강인성과 정확도를 동시에 향상시킨 스테레오 비전 - 관성 오도메트리 (VIO) 시스템 'OTPL-VIO'를 제안합니다.
이 논문은 배경 일관성을 유지하면서 전경 품질을 향상시키기 위해, 할루시네이션 감지를 통해 캐시된 배경 키 - 값과 생성된 키 - 값의 융합 비율 및 CFG 스케일을 동적으로 조절하는 훈련 불필요 KV-Lock 프레임워크를 제안합니다.
이 논문은 비디오 관측을 통해 바람과 물체의 상호작용을 물리 법칙에 기반한 미분 가능한 프레임워크인 DiffWind 로 모델링하여, 3D 가우스 스플래팅과 MPM, LBM 을 활용하여 바람의 힘장을 재구성하고 새로운 바람 조건에서의 시뮬레이션 및 바람 리타게팅을 가능하게 하는 WD-Objects 데이터셋을 포함해 기존 방법보다 뛰어난 정확도와 충실도를 달성함을 제시합니다.
이 논문은 저조도 영역이나 반사 표면과 같은 신뢰할 수 없는 측정값으로 인한 드리프트를 줄이기 위해, 3D 가우스 스플래팅 기반 SLAM 시스템이 각 스플랫의 불확실성을 명시적으로 학습하고 이를 통해 신뢰할 수 있는 영역에 초점을 맞춘 강건한 추론 및 매핑을 가능하게 하는 'VarSplat'을 제안합니다.