-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs
이 논문은 실제 자율주행 환경에서 카메라 입력이 불완전한 상황에서도 3D 시맨틱 오큐팬시 예측의 견고성을 확보하기 위해 누락된 뷰의 특징을 복원하고 전역적 의미적 일관성을 유지하는 -Occ 프레임워크를 제안합니다.
2565 편의 논문
이 논문은 실제 자율주행 환경에서 카메라 입력이 불완전한 상황에서도 3D 시맨틱 오큐팬시 예측의 견고성을 확보하기 위해 누락된 뷰의 특징을 복원하고 전역적 의미적 일관성을 유지하는 -Occ 프레임워크를 제안합니다.
이 논문은 다중 모달 대형 언어 모델 기반의 연속 환경 비전 - 언어 내비게이션 (VLN-CE) 에서 발생하는 누적 오류와 희소한 보상 문제를 해결하기 위해, 불완전한 궤적에서 밀집된 감독 신호를 추출하여 단계별 정렬을 수행하는 '단계 인식 대비 정렬 (SACA)' 프레임워크를 제안하고 이를 통해 최첨단 성능을 달성함을 보여줍니다.
이 논문은 산업 환경에서의 인간 행동 이해를 지원하기 위해 실제 산업 현장에서 동기화된 180 개의 자시 (ego) 및 타시 (exo) 시점 비디오와 상세한 주석을 포함한 새로운 데이터셋 'ENIGMA-360'을 제안하고, 이를 기반으로 한 기초 실험을 통해 기존 모델의 한계를 규명했습니다.
이 논문은 시각적 관찰의 모호성을 극복하고 절차 계획의 정확도를 획기적으로 향상시키기 위해, 비전 - 언어 모델을 활용하여 시각 정보를 언어적 표현으로 변환한 후 이를 확산 모델에 적용하는 새로운 '언어 인식 계획 (LAP)' 모델을 제안하고 여러 벤치마크에서 최첨단 성능을 입증했습니다.
이 논문은 기존 방법의 한계를 극복하고 추가 학습 없이 다국어 로고 생성 및 스타일화를 가능하게 하는 'LogoDiffuser'라는 새로운 방법을 제안하며, 이를 위해 텍스트 대신 문자 이미지를 입력하고 주의 메커니즘을 제어하여 문자 구조와 시각적 디자인을 통합합니다.
이 논문은 360 도 실내 환경에서의 전역적 지각을 위해 왜곡 인식 스펙트럼 모듈레이터와 오미-구형 밀도화 헤드를 갖춘 PanoAffordanceNet 프레임워크와 고품질 데이터셋 360-AGD 를 제안하여, 기존 객체 중심 및 평면 뷰에 국한된 affordance grounding 의 한계를 극복하고 장면 수준의 지각을 위한 강력한 기준을 마련했습니다.
이 논문은 추가적인 학습 단계나 외부 모듈 없이 비전-언어 모델의 내부 주의 메커니즘을 활용해 목표 개념을 나타내는 시각 토큰을 추출하여 메모리로 저장함으로써, 효율적이고 확장 가능한 개인화 기능을 구현하는 'Ego' 방법을 제안합니다.
이 논문은 기존 백도어 방어 기법이 훈련된 트리거를 제거하는 것만으로는 충분하지 않으며, 훈련 트리거와 시각적으로 구별되지만 동일한 백도어를 활성화하는 '대체 트리거'가 존재함을 이론적·실증적으로 증명하고, 이에 따라 입력 공간의 트리거가 아닌 표현 공간의 백도어 방향을 표적으로 하는 새로운 방어 전략의 필요성을 제기합니다.
이 논문은 기존 설명 가능한 인공지능 (XAI) 방법이 간과해 온 '개념의 부재'가 뉴런 활성화에 미치는 영향을 규명하고, 이를 탐지하기 위한 새로운 기법을 제안하여 모델 해석과 편향 제거를 개선하는 방법을 제시합니다.
이 논문은 기존 방법의 높은 데이터 및 계산 비용 문제를 해결하기 위해, 멀티-라벨 프로토타입 성장 모듈과 이중 단서 일관성 메커니즘을 통해 테스트 시간 동안 이기-엑소 관점 간 행동 예측을 적응시키는 새로운 프레임워크 (DCPGN) 를 제안합니다.
이 논문은 오디오-비주얼 학습의 정밀도를 높이기 위해 지역 인식 음원 이해 (RA-SSU) 라는 새로운 과제를 정의하고, 이를 위한 두 개의 세부 데이터셋 (f-Music, f-Lifescene) 과 최첨단 성능을 보이는 SSUFormer 모델을 제안합니다.
이 논문은 두 개의 입력 이미지로 큰 시점 변화를 겪는 새로운 뷰를 합성할 때, 기존 회귀 기반 방법의 한계와 카메라 유도 확산 모델의 불안정성을 해결하기 위해, 신뢰도 가중치와 칼만 필터 기반 예측 - 업데이트 메커니즘을 활용하여 확산 모델이 지시된 카메라 궤적을 따르면서도 보이지 않는 영역을 정확하게 복원하도록 하는 'ConfCtrl' 프레임워크를 제안합니다.
이 논문은 진단 신호의 미묘함과 산포로 인한 해석 가능성의 한계를 극복하기 위해, 적응적 위상 분할, 주의를 통한 중요 위상 식별, 이진화 및 희소성 정규화를 통한 그래프 구조 생성, 그리고 시공간 지도 대비 학습을 통합한 'BrainSTR' 프레임워크를 제안하여 자폐 스펙트럼 장애, 양극성 장애, 주요 우울증의 진단에 있어 해석 가능한 동적 뇌 네트워크 모델링을 가능하게 합니다.
이 논문은 비전 - 언어 모델 (VLM) 의 공간 추론 능력을 활용하여 3D 포인트 클라우드 맵 내 자연어 기반 위치 추정을 개선하기 위해, 포인트 클라우드를 BEV 이미지와 장면 그래프로 변환하고 부분 노드 할당 메커니즘을 도입한 VLM-Loc 프레임워크와 새로운 CityLoc 벤치마크를 제안합니다.
이 논문은 다수의 embodied 에이전트로부터 수집된 장기 시점의 이기중심 비디오를 동시에 이해하는 새로운 문제를 정의하고, 이를 평가하기 위한 MA-EgoQA 벤치마크와 공유 메모리 및 동적 검색을 활용한 EgoMAS 기반 모델을 제안하며, 현재 모델들이 다중 스트림 처리에 한계가 있음을 보여줍니다.
이 논문은 라벨이 없는 데이터로 초음파 국소화 현미경 (ULM) 의 해상도와 국소화 정확도를 획기적으로 향상시키면서도 실시간 처리가 가능한 최초의 통합 딥러닝 프레임워크인 'CycleULM'을 제안합니다.
이 논문은 실제 응용 환경에서 발생할 수 있는 불균형한 결손 모달리티 조건을 평가하기 위해 새로운 벤치마크 'MissBench'와 모달리티 공평성 및 학습 불균형을 측정하는 진단 지표를 제안합니다.
이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.
이 논문은 손목 관절 좌표와 물체 바운딩 박스라는 희소 모션 가이드와 객체 스트레스 어텐션, 다중 작업 보조 학습 전략을 통해 유연하고 물리적으로 일관된 인간 - 물체 상호작용 (HOI) 비디오 생성을 가능하게 하는 DISPLAY 프레임워크를 제안합니다.
이 논문은 스포츠 장면의 공간적 지능을 평가하기 위해 100 만 개 이상의 QA 쌍을 포함한 대규모 데이터셋 'CourtSI'와 검증된 벤치마크 'CourtSI-Bench'를 제안하고, 이를 통해 기존 비전 - 언어 모델의 공간 이해 한계를 드러내며 스포츠 특화 파인튜닝이 성능을 획기적으로 개선함을 입증합니다.