Point-based Instance Completion with Scene Constraints
이 논문은 기존 방법의 한계를 극복하고 장면 내 객체의 불완전한 스캔을 정밀하게 복원하기 위해 장면 제약 조건을 통합한 새로운 포인트 클라우드 기반 인스턴스 완성 모델과 이를 평가하기 위한 새로운 데이터셋 ScanWCF 를 제안합니다.
1869 편의 논문
이 논문은 기존 방법의 한계를 극복하고 장면 내 객체의 불완전한 스캔을 정밀하게 복원하기 위해 장면 제약 조건을 통합한 새로운 포인트 클라우드 기반 인스턴스 완성 모델과 이를 평가하기 위한 새로운 데이터셋 ScanWCF 를 제안합니다.
이 논문은 EEG 기반 감정 인식의 안정성과 정확도를 향상시키기 위해 Lipschitz 연속성 제약을 적용한 앙상블 학습 프레임워크인 LEL 을 제안하고, 여러 공개 데이터셋에서 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 GPS 가 제한된 도시 환경에서 모바일 플랫폼의 자원 제약을 극복하기 위해, 다중 카메라 시스템이 비유용한 특징을 제거하고 중복성을 최소화하는 O-VIB 인코더를 통해 경량화된 시각적 특징을 에지 서버로 전송하여 정밀한 로컬라이제이션을 수행하는 작업 지향적 의미 압축 프레임워크를 제안합니다.
이 논문은 방사선 노출을 줄이면서도 고품질 CBCT 영상을 재구성하기 위해 다중 뷰 2D 및 다중 스케일 3D 특징을 통합한 DiCE 네트워크와 하이브리드 뷰 샘플링 사전 학습 (HyViP) 프레임워크를 갖춘 최초의 CBCT 재구성 기반 모델인 'DeepSparse'를 제안하고, 이를 통해 기존 방법들보다 우수한 재구성 성능을 입증했습니다.
이 논문은 객체 감지부터 경로 계획까지 다양한 자율 주행 작업을 지원하며 단일 차량과 다중 차량 협력 주행 연구를 위한 포괄적인 벤치마크인 MCAD 를 소개하고, 네트워크 대역폭 요구사항을 고려한 새로운 다단계 융합 방식을 제안하여 협력 자율 주행 시스템 개발을 촉진합니다.
이 논문은 키포인트 기반의 자산 및 시연 합성 기법과 KG-DAgger 알고리즘을 활용하여 의류의 변형성 문제를 해결하고, 시뮬레이션에서 학습된 폐루프 정책이 실제 환경에서 75% 의 높은 성공률을 달성하도록 한 FoldNet 프레임워크를 제안합니다.
이 논문은 2D 포즈 이미지의 한계를 극복하고 3D 모션 시퀀스를 직접 토큰화하여 4D 모션 토큰을 생성하는 '4DMoT'와 이를 활용한 'MV-DiT'를 제안함으로써, 다양한 캐릭터와 비인간 객체에 대해 뛰어난 제로샷 일반화 성능을 보이는 새로운 캐릭터 애니메이션 프레임워크인 MTVCraft 를 소개합니다.
이 논문은 다중 코일 및 다중 모달리티 MRI 의 가속화를 위해 수렴성이 보장된 최적화 알고리즘을 구조화된 신경망으로 풀고 메타러닝을 통합하여, 과도한 언더샘플링 및 도메인 변화 하에서도 기존 방법보다 우수한 성능을 보이는 통일된 딥러닝 프레임워크를 제안합니다.
이 논문은 애플 비전 프로를 활용해 829 시간 분량의 3D 손 관절 추적 데이터와 다양한 일상 조작 행위를 포함하는 대규모 데이터셋 'EgoDex'를 구축하고, 이를 통해 모방 학습 정책의 성능을 평가하는 새로운 벤치마크를 제시합니다.
이 논문은 대규모 인터넷 데이터로 학습된 비디오 확산 모델을 상호작용 가능한 세계 모델로 전환하기 위해 인과적 구조 재설계와 행동 유도 메커니즘을 도입한 'Vid2World'를 제안하며, 로봇 조작 및 3D 게임 등 다양한 환경에서 확장 가능하고 효과적인 해결책을 제시합니다.
이 논문은 물리 법칙을 엄격하게 준수하는 경계 적분 방정식 솔버와 사전 학습된 3D 생성 모델을 결합하여, 전기 임피던스 단층촬영 (EIT) 의 3D 인터페이스 재구성 문제를 기존 방법론보다 높은 기하학적 정밀도와 데이터 효율성으로 해결하는 새로운 '솔버-인-더-루프' 프레임워크를 제안합니다.
이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.
이 논문은 밀집된 작물 이미지에서 수동 주석을 최소화하면서도 형태와 질감에 초점을 맞춘 GLMask 를 도입하여 인스턴스 분할 성능을 획기적으로 향상시키는 반-자기지도 학습 접근법을 제안합니다.
이 논문은 GAN 의 모드 붕괴 문제를 해결하고 구조적 다양성을 강화하기 위해 분산 패널티를 도입한 변형된 피라미드 pix2pix 모델을 개발하여, 비용 효율적이고 확장 가능한 HER2 양성 유방암 진단을 위해 H&E 염색 이미지를 고품질 IHC 이미지로 변환하는 새로운 딥러닝 프레임워크를 제시합니다.
이 논문은 조명과 법선 정보를 명확히 분리하고 고주파 기하학적 디테일을 보존하기 위해 '라이트 레지스터 토큰', '교차 어텐션 블록', '웨이블릿 기반 듀얼 브랜치 아키텍처'를 도입하고 대규모 데이터셋 'PS-Verse'를 활용하여 범용 광학 스테레오의 성능을 획기적으로 개선한 'Light of Normals' 모델을 제안합니다.
이 논문은 시각 언어 모델 (VLM) 에서 추출한 특징을 명시적 프롬프트로 활용하여 SAM 을 유도하고, 분류 단계에서 도메인 간극을 해소하기 위해 하드 크롭 대신 알파 채널을 통한 소프트 공간 사전 정보를 제공함으로써, 기존 방법들의 한계를 극복하고 은폐된 객체의 분할 및 분류 정확도를 획기적으로 향상시키는 새로운 캐스케이드 프레임워크를 제안합니다.
이 논문은 사전 훈련된 잠재 확산 모델과 다중 모달 이해 모델을 활용하여 데이터셋 없이도 다양한 저해상도 이미지 복원 작업을 통합적으로 수행하는 새로운 제로샷 방법인 LD-RPS 를 제안하고, 반복적 사후 샘플링을 통해 기존 방법들을 능가하는 성능을 입증합니다.
이 논문은 인간의 시각 발달 과정을 모방한 '발달 시각 식단 (DVD)'을 통해 AI 가 질감보다 형태에 기반한 견고하고 인간과 유사한 시각 능력을 획득할 수 있음을 보여줍니다.
이 논문은 다양한 데이터셋 간의 편차를 해결하고 범용적인 시각적 장소 인식 (VPR) 성능을 극대화하기 위해 학습된 쿼리를 참조 코드북으로 활용하는 새로운 특징 집계 기법인 '쿼리 기반 적응적 집계 (QAA)'를 제안합니다.
이 논문은 센서 고장이나 개인정보 보호로 인한 불완전한 멀티모달 데이터의 감정 인식 성능 저하 문제를 해결하기 위해, 모달리티 조합별 특성을 고려한 저랭크 적응 기법 (MCLA) 과 표현 공간의 분리 가능성을 기반으로 동적 파라미터 미세 조정을 수행하는 (DPFT) 새로운 프레임워크인 MCULoRA 를 제안하여 기존 방법보다 뛰어난 성능을 입증했습니다.