PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture
본 논문은 PCA 기반의 병렬 전략과 Mamba-Transformer 하이브리드 아키텍처를 결합하여 점군 완성의 계산 효율성과 재구성 정확도를 동시에 극대화한 PPC-MT 프레임워크를 제안합니다.
6109 편의 논문
본 논문은 PCA 기반의 병렬 전략과 Mamba-Transformer 하이브리드 아키텍처를 결합하여 점군 완성의 계산 효율성과 재구성 정확도를 동시에 극대화한 PPC-MT 프레임워크를 제안합니다.
이 논문은 뇌졸중 재활 평가의 정밀도를 높이기 위해 단일 레이어 내에서 각 프레임이 여러 시간적 윈도우에 동시 주의를 기울이는 '다중 소속 시간적 주의 (MMTA)' 메커니즘을 도입하여, 기존 모델의 한계를 극복하고 비디오 및 IMU 데이터에서 미세한 운동 분할 성능을 향상시킨 단일 단계 아키텍처를 제안합니다.
이 논문은 X-ray 관상동맥 조영술 (XCA) 비디오의 혈관 분할을 위해 SAM3 기반의 교사 - 학생 프레임워크, 모션 인식 일관성, 그리고 점진적 신뢰도 정규화를 결합한 'SMART'라는 반지도 학습 방법을 제안하여 적은 주석 데이터로도 최첨단 성능을 달성함을 보여줍니다.
이 논문은 태그 MRI 의 해부학적 이미지 복원, 고해상도 영상 합성, 그리고 운동 추정을 통합하는 새로운 비선형 블라인드 역문제 프레임워크를 제안하여, MR 물리학과 생성적 사전지식을 결합해 기존 방법들보다 우수한 성능을 달성함을 보여줍니다.
본 논문은 VEMamba 라는 효율적인 프레임워크를 제안하여, 3D 의존성 재구성 패러다임과 현실적인 열화 시뮬레이션을 통해 체적 전자 현미경 (VEM) 데이터의 비등방성 문제를 해결하고 우수한 등방성 재구성을 달성합니다.
이 논문은 3D 공간 이해가 필요한 작업에서 기존 다중 모달 대규모 언어 모델의 한계를 극복하기 위해, 3D 재구성 및 카메라 포즈 복구 등 공간 도구를 Python 코드 생성을 통해 호출하는 제로샷 시각 프로그래밍 프레임워크 'pySpatial'을 제안하고, 이를 통해 MindCube 및 Omni3D-Bench 벤치마크와 실제 실내 항법 실험에서 뛰어난 성능을 입증했습니다.
이 논문은 산란으로 인한 왜곡을 제거하고 편광 정보를 활용하여 3D 표면 법선 벡터를 정밀하게 복원하는 통합 네트워크 UD-SfPNet 을 제안하며, 이를 통해 수중 환경에서의 광학 3D 이미징 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 이산 그리드에서 정밀한 테셀레이션을 식별하기 위해 위계적 알고리즘, 정규화, 소수 추출 기법을 활용하여 결정론적 패턴 추출을 가능하게 하는 새로운 방법을 제안하고 그 확장성을 평가합니다.
이 논문은 정밀한 센서 보정 없이도 다중 뷰 실내 3D 객체 감지를 가능하게 하기 위해 VGGT 의 내부 시맨틱 및 기하학적 사전 지식을 활용하는 새로운 프레임워크 'VGGT-Det'을 제안하며, 주시 기반 쿼리 생성과 쿼리 주도 특징 집계 모듈을 통해 기존 최첨단 방법보다 ScanNet 과 ARKitScenes 데이터셋에서 성능을 크게 향상시킵니다.
이 논문은 자율주행에서 LLM 의 정밀한 수치 추론과 제어 명령 생성의 한계를 극복하기 위해, 숫자를 토큰이 아닌 전용 임베딩으로 매핑하는 새로운 인코딩 방식인 DriveCode 를 제안하고 그 유효성을 입증합니다.
이 논문은 DrawEduMath 벤치마크를 통해 11 개의 비전 - 언어 모델이 수학 문제 해결 능력은 갖추고 있으나, 학습 부진이 있는 학생의 오류를 식별하고 진단하는 교육적 맥락에서는 성능이 크게 저하된다는 점을 밝혔습니다.
이 논문은 HDR-UGC 비디오의 품질 평가를 위해 대규모 주관적 데이터셋 'Beyond8Bits'를 구축하고, HDR 인지 비전 인코더와 강화학습 기반의 HAPO 프레임워크를 도입한 최초의 멀티모달 대형 언어 모델 'HDR-Q'를 제안하여 기존 SDR 모델의 한계를 극복하고 최첨단 성능을 달성했습니다.
이 논문은 인스턴트-NGP 의 해시 인코딩을 키 제어 방식으로 활용하여 단일 모델 내에 가시 3D 장면을 숨기고, 외부 디코더 없이도 높은 용량과 보안성을 갖춘 새로운 3D 암호화 스테가노그래피 방법인 StegoNGP 를 제안합니다.
이 논문은 대비적 포워드-포워드 학습에서 양의 쌍 마진 적용 방식인 클램핑이 CIFAR-10 과 같은 특정 데이터셋에서 학습 분산을 크게 증가시키는 원인을 규명하고, 이를 그라디언트 중립적인 뺄셈 방식으로 대체함으로써 평균 정확도 손실 없이 분산 문제를 해결할 수 있음을 보여줍니다.
이 논문은 가우스의 운동과 기하학적 속성을 분리하여 복잡한 비선형 운동을 유연하게 모델링하고 시각적 아티팩트를 줄임으로써 동적 장면의 고충실도 재구성을 가능하게 하는 새로운 4D 가우스 스플래팅 프레임워크인 VeGaS 를 제안합니다.
이 논문은 플로우 매칭 기반의 차세대 이미지 및 비디오 생성 모델에서 원하지 않는 개념을 효과적으로 제거하면서도 생성 품질과 시간적 일관성을 유지하기 위해, 제약 조건이 있는 다목적 최적화와 효율적인 그라디언트 수술 기법을 통합한 'EraseAnything++' 프레임워크를 제안합니다.
이 논문은 3D 의료 분할을 위해 무한한 확장성을 가진 합성 데이터의 이점과 실제 해부학적 구조의 충실도를 결합하여, 단순한 기하학적 도형 대신 탈식별된 마스크와 위상적 제약을 활용한 '해부학적 논리가 반영된 합성 지도 전학습' 프레임워크를 제안하고, 이를 통해 기존 자기지도학습 및 합성 학습 방법보다 우수한 성능을 입증했습니다.
이 논문은 대규모 비전 - 언어 모델의 장거리 비디오 이해를 위해, DINO 임베딩을 활용한 이벤트 기반 계층적 프레임 선택 기법 (EFS) 을 제안하여 기존 평탄한 샘플링 방식의 한계를 극복하고 다양한 벤치마크에서 성능을 크게 향상시켰습니다.
이 논문은 의료 이미지 분석에서 ViT 의 데이터 부족 문제를 해결하기 위해 기존 FDSL 의 한계를 극복하고, 경계 왜곡을 방지하면서 물리 기반의 텍스처를 합성하는 '물리 기반 공간 분리 합성' 프레임워크를 제안하여 BTCV 와 MSD 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.
이 논문은 원격 탐사 분야에서 단일 모달리티에서 멀티모달리티로 진화하는 기반 모델에 대한 포괄적인 기술 조사를 제공하며, 개념 정의와 필요성, 그리고 초보 연구자를 위한 실용적인 훈련 및 적용 가이드를 다룹니다.